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本 书 迎 接 现代 语言 和 体系 结构 的 挑战 ， 帮 助 读者 作 好 准备 ， 去 应 对 将 来 要 遇 到 的 
编译 器 设计 的 问题 。 
本 书 涵盖 现代 微 处 理 器 编译 器 的 设计 和 实现 方面 的 所 有 高 级 主题 。 本 书 从 编译 设 
计 基 础 领域 中 的 高 级 问题 开始 ， 广 泛 而 深入 地 阐述 各 种 重要 的 代码 优化 技术 ， 分 析 各 
种 优化 之 间 的 相对 重要 关系 ， 以 及 实现 这 些 优化 的 最 有 效 方法 。 
本 书 特点 
e 为 理解 高 级 编译 器 设计 的 主要 问题 奠定 了 基础 
e 深入 前述 优化 问题 
e 用 Sun 的 SPARC、IBM 的 POWER 和 PowerPC、DEC 的 Alpha 以 及 Intel 的 Pentium 
和 相关 商业 编译 器 作为 案例 ， 说 明 编 译 器 结构 、 中 间 代 码 设计 和 各 种 优化 方法 
e 给 出 大 量 定义 清晰 的 关于 代码 生成 、 优 化 和 其 他 问题 的 算法 
© 介绍 由 作者 设计 的 以 清晰 、 简 洁 的 方式 描述 算法 的 语言 ICAN ( 非 形 式 编译 算法 
表示 ) 


作 。 1 。 兽 是 计算 机 科学 教授 , 后 作为 惠普 的 PA-RISC 和 Sun 的 

Steven S. Muchnick spARC 两 种 计算 机 体系 结构 的 核心 开发 成 员 ， 将 自己 
的 知识 和 经 验 应 用 于 编译 器 设计 ， 并 担任 这 些 系统 的 高 级 编译 器 设计 与 实现 小 组 的 领导 人 。 他 在 
研究 和 开发 方面 的 双重 经 验 ， 对 于 指导 读者 作出 编译 器 设计 决策 极 具 价值 
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本 书 涵盖 了 现代 微 处 理 器 编译 器 的 设计 和 实现 方面 的 所 有 高 级 主题 。 

本 书 首先 介绍 编译 器 的 结构 、 符 号 表 管 理 、 中 间 代 码 结构 、 运 行 时 支持 等 问题 ， 探 
讨 过 程 内 的 控制 流 分 析 、 数 据 流 分 析 、 依 赖 关 系 分 析 和 别名 分 析 的 各 种 方法 ， 并 介绍 一 
系列 的 全 局 优化 。 接 下 来 ,讲述 过 程 间 的 控制 流 分 析 、 数 据 流 分 析 和 别名 分 析 ， 以 及 过 
程 间 优 化 和 如 何 应 用 过 程 间 信 息 来 改善 金 局 优化 。 然 后 ， 讨 论 有 效 利用 层次 存储 系统 的 
优化 技术 。 最 后 ， 详 细 介 绍 4 种 商业 化 编译 系统 ， 以 提供 编译 器 结构 、 中 间 代 码 设 计 、 优 
化 策略 和 效果 的 专门 例子 。 

本 书 适合 作为 高 等 院 校 计算 机 专业 研究 生 和 高 年 级 本 科 生 的 教材 ， 也 适合 需要 了 解 
高 级 编译 器 设计 和 构造 有 关 问 题 的 计算 机 专业 人 员 参 考 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 蕴 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 沫 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真 正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum Stroustrup, Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 雇 藏 。 大 理 石 纹 理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书” 已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 和 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” RAAR 
“全 美 经 典 学 习 指 导 系 列 ”。 为 了 保证 这 三 套 丛 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科 技 大 学 、 哈 尔 滨 工 业 大 学 、 西 安 交通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 ”"， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T.，Stanford，U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵 盖 了 程序 设计 、 数 据 结构 、 操 作 系统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工 程 、 图 形 学 、 通 信 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 和 人 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzeduGhzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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本 书 被 称 为 “ 鲸 书 ”， 这 一 方面 是 因为 它 的 英文 原版 书 的 封面 是 一 张 奇 尔 卡 特 毛毯 的 照片 ， 而 
这 张 毛毯 的 图 案 是 一 条 在 水 中 潜 游 的 鲸鱼 ; 另 一 方面 则 是 因为 本 书 是 有 关 编译 技术 的 重要 著作 之 一 ， 
被 人 们 誉 为 与 编译 技术 的 经 典 代表 作 “ 龙 书 ”(《Compilers: Principles,Techniques,and Tools?) 齐名 。 

本 书 的 作者 Steven S，Muchnick 在 编译 技术 方面 有 着 深厚 的 理论 基础 ， 又 具有 丰富 而 广博 
的 经 验 。 他 以 这 样 两 方面 的 功力 写成 的 这 本 书 ， 对 于 从 事 编译 器 设计 和 实现 的 科技 人 员 具 有 无 
法 衡量 的 价值 。 本 书 的 内 容 主要 集中 在 编译 器 的 后 端 以 及 编译 优化 实现 方面 ， 全 面 阐述 了 在 编 
写 一 个 真实 的 编译 器 时 遇 到 的 各 种 关键 问题 及 解决 方法 ， 反 映 了 近 十 多 年 来 针对 现代 计算 机 体 
系 结构 而 出 现 的 各 种 新 的 编译 优化 技术 ， 同 时 作者 对 仍 在 研究 中 的 编译 实现 和 优化 热点 问题 也 
给 出 了 很 好 的 综述 和 参考 文献 。 注 重 真实 语言 和 真实 体系 结构 的 编译 实现 方法 ， 注 重 对 现代 体 
系 结构 性 能 有 重要 影响 的 各 种 优化 是 本 书 的 特点 ， 而 这 正 是 国内 已 出 版 的 编译 方面 的 著述 所 缺 
乏 的 ， 该 书 的 翻译 出 版 填补 了 国内 编译 著作 在 这 一 方面 的 空白 。 对 于 已 经 学 习 过 编译 原理 课程 
的 高 年 级 本 科 生 和 研究 生 而 言 ， 书 中 的 内 容 为 他 们 进一步 了 解 真实 编译 器 中 的 设计 问题 和 实现 
技术 开拓 了 视野 ， 而 对 于 想 实现 一 个 优化 编译 器 和 在 编译 技术 领域 进行 深入 研究 的 科研 人 员 而 
言 ， 作 者 在 书 中 指出 的 工程 上 必须 注意 但 容易 被 忽视 的 许多 问题 以 及 给 出 的 大 量 有 价值 的 实用 
方法 ， 为 他 们 进行 工程 实践 提供 了 指导 ， 也 为 他 们 指出 了 深入 研究 的 方向 。 

能 充分 发 挥 现代 并 行 体系 结构 性 能 的 优化 编译 器 是 最 复杂 的 软件 系统 之 一 。 设 计 和 实现 一 
个 优化 编译 器 既是 一 项 工程 ， 又 是 一 种 艺术 创造 。 而 翻译 这 本 关于 高 级 编译 技术 的 书 ， 对 于 我 
们 而 言 ， 既 是 一 次 学 习 ， 又 是 一 种 欣赏 。 通 过 翻译 本 书 ， 我 们 对 高 级 编译 技术 又 进行 了 一 次 系 
统 的 学 习 ， 收 获 颇 丰 。 编 译 器 的 设计 和 实现 要 遵循 计算 机 科学 技术 的 规律 ， 编 译 器 的 功能 要 能 
适应 体系 结构 和 编程 语言 的 特点 ， 充 分 发 挥 它们 的 特性 ， 而 编译 器 内 部 各 组 件 要 能 有 机 协调 地 
工作 。 我 们 在 研究 和 编写 一 个 好 的 编译 器 时 ， 就 在 欣赏 着 科学 技术 的 美感 。 在 翻译 本 书 的 过 程 
中 ， 我 们 也 钦佩 作者 杰出 的 聪明 才智 ， 体 会 到 了 自然 的 辩证 法 。 

在 自然 科学 领域 ， 计 算 机 科学 技术 是 一 门 很 年 轻 的 学 科 ， 但 在 计算 机 科学 技术 中 ， 编 译 技 
术 却 是 一 个 相对 “古老 ”的 研究 方向 。 新 技术 层出不穷 ， 引 人 入 胜 ， 需 要 有 人 去 研究 。 但 同时 
我 们 也 认为 ， 编 译 技术 是 计算 机 技术 的 重要 组 成 部 分 ， 随 着 计算 机 新 技术 新 理论 的 不 断 涌现 ， 
编译 技术 本 身 也 在 不 断 发 展 ， 也 还 有 着 无 穷 的 奥秘 等 待 着 人 们 去 探索 。 信 息 化 是 全 面 建设 小 康 
社会 的 必由之路 ， 实 现 信息 化 必须 真正 掌握 发 展 计算 机 技术 的 主动 权 ， 而 编译 技术 如 同 微 处 理 
妖 和 操作 系统 技术 等 一 样 ， 是 计算 机 技术 的 关键 ， 必 须 掌 握 在 自己 手中 。 通 过 翻译 本 书 ， 我 们 
愿 为 我 国 编译 技术 的 发 展 献上 一 份 绵薄 之 力 。 

本 书 的 前 言 和 第 1、9、10、11 章 由 沈 志 字 翻 译 ， 其 余 由 赵 克 佳 翻译 。 全 书 由 沈 志 宇 审 校 。 
国防 科大 软件 研究 所 的 黄 春 、 王 锋 、 张 小 强 等 老师 ， 以 及 郭 学 鹏 、 张 定 飞 等 研究 生 阅 读 了 本 书 
的 部 分 译 稿 ， 并 给 出 了 不 少 有 价值 的 修改 意见 ， 特 此 致谢 。 

由 于 我 们 才 政 学 纺 ， 在 翻译 中 不 当 之 处 还 恳请 读者 诸 君 不 吝 赐 教 。 


译 者 
2005 年 3 月 于 国防 科学 技术 大 学 
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从 20 世 纪 50 年 代 中 期 以 来 ， 编 译 器 设计 就 一 直 是 计算 机 研究 和 开发 中 的 活跃 主题 。 第 一 个 
广泛 使 用 的 高 级 语言 Fortran 的 成 功 在 很 大 程度 上 归功 于 其 早期 高 质量 的 编译 器 。John Backus 
和 他 在 IBM 的 同事 们 认识 到 ， 除 非 编译 器 生成 的 代码 与 手工 书写 的 机 器 代码 的 性 能 非常 接近 ， 
否则 程序 员 就 不 会 放弃 他 们 在 使 用 汇编 语言 时 所 习惯 采用 的 细节 设计 控制 方法 。Backus 的 小 组 
创造 了 若干 关键 概念 ， 这 些 概 念 构成 了 本 书 所 研究 问题 的 基础 。 这 些 概念 包括 循环 优化 中 数组 
索引 的 处 理 和 局 部 寄存 器 分 配方 法 等 。 从 那 时 起 ， 研 究 人 员 和 开发 人 员 就 一 直 不 断 用 更 有 效 的 
方法 来 改善 和 替代 旧 的 方法 。 

既然 编译 器 设计 已 有 很 长 的 历史 ， 并 且 是 一 门 相对 成 熟 的 计算 技术 ， 人 们 可 能 会 问 ， 为 什 
么 还 要 写 一 本 有 关 此 领域 的 新 书 ? 回答 是 明显 的 ， 编 译 器 是 一 种 生成 由 源 程序 至 机 器 指令 的 高 
效 映 射 的 工具 。 语 言 的 设计 不 断 在 变化 ， 目 标 机 体系 结构 也 不 断 在 变化 ， 程 序 越 来 越 复 杂 ， 其 
规模 也 越 来 越 大 。 尽 管 编译 器 设计 问题 在 高 级 层次 上 没有 变化 ， 但 当 我 们 深入 其 内 部 研究 就 会 
发 现 ， 它 其 实 也 一 直 在 变化 。 此 外 ， 我 们 能 够 供 编译 器 本 身 使 用 的 计算 资源 也 在 增加 。 因 此 ， 
现代 编译 器 可 以 采用 比 以 前 更 耗费 时 间 和 空间 的 算法 。 当 然 ， 研 究 人 员 也 在 继续 开发 新 的 、 更 
好 的 技术 来 解决 传统 的 编译 器 设计 问题 。 事 实 上 ， 本 书 中 的 所 有 主题 都 是 计算 机 体系 结构 变化 
的 直接 结果 。 

本 书 迎 接 现代 语言 和 体系 结构 的 挑战 ， 帮 助 读者 做 好 准备 ， 去 应 对 将 来 难免 机遇 到 的 编译 
器 设计 的 新 间 题 。 例 如 ， 第 3 章 在 读者 把 握 了 符号 表 和 局 部 作用 域 的 知识 后 ， 讲 述 了 如 何 处 理 
Ada、Modula-2 和 其 他 现代 语言 中 的 导入 和 导出 作用 域 。 而 且 ， 由 于 运行 时 的 环境 基本 上 规定 
了 源 语言 的 动态 语义 ， 第 5 章 关 于 运行 时 支持 的 高 级 问题 (如 编译 共享 对 象 ) 的 讨论 也 是 特别 
有 价值 的 。 第 5 章 还 讨论 了 某 些 现代 语言 丰富 的 类 型 系统 和 现代 体系 结构 所 要 求 的 种 种 参数 传 
递 策略 。 

任何 一 部 关于 编译 器 设计 的 书 ， 如 果 没 有 介绍 代码 生成 ， 它 就 是 不 完整 的 。 早 期 的 代码 生 
成 研究 提供 了 设计 手工 书写 指令 选择 例 程 的 方法 ， 以 及 如 何在 进行 指令 选择 的 同时 管理 寄存 器 
的 方法 。 本 书 第 6 章 在 讨论 代码 生成 时 ， 论 述 了 基于 模式 匹配 的 自动 化 技术 。 这 种 自动 化 技术 
之 所 以 成 为 可 能 ， 其 原因 不 仅仅 是 编译 器 研究 的 进步 ， 而 且 也 是 因为 指令 集 已 经 变 得 更 为 简单 
和 更 为 规整 ， 以 及 编译 器 已 经 能 够 构造 和 遍历 中 间 代 码 树 。 

优化 是 高 级 编译 器 设计 的 核心 ， 也 是 本 书 的 重点 。 有 许多 理论 性 的 成 果 是 关于 程序 分 析 的 。 
程序 分 析 的 目的 既是 为 了 优化 的 安全 ， 也 是 为 了 其 他 目的 。 本 书 第 7~10 章 回顾 了 迄今 为 止 的 各 种 
经 典 分 析 方法 ， 同 时 也 介绍 了 以 前 只 在 研究 论文 中 出 现 过 的 更 新 和 更 有 效 的 方法 。 这 种 综合 本 身 
就 是 对 编译 器 设计 的 一 个 重要 贡献 。 随 后 的 许多 章节 都 要 使 用 这 些 分 析 来 完成 各 种 优化 方法 。 

近代 计算 机 系统 具备 由 较 多 数量 的 寄存 器 构成 的 寄存 器 集合 ， 这 促成 了 第 16 章 关于 寄存 问 
分 配 的 讨论 。 这 一 章 概括 了 近 十 年 来 在 寄存 器 分 配 问题 上 的 算法 和 启发 式 方法 。 另 外 ， 计 算 机 
速度 提高 的 一 个 重要 的 原因 是 并 行 性 ， 即 同时 做 若干 件 事情 的 能 力 。 为 了 将 串 行程 序 转换 为 可 
以 利用 硬件 并 行 性 的 并 行程 序 ， 编 译 器 可 能 需要 以 既 保证 正确 性 又 增加 并 行 性 的 方式 重 排 部 分 
计算 。 尽 管 完整 的 并 行 处 理 超出 了 本 书 的 范围 ， 但 本 书 集中 讨论 了 指令 级 并 行 ， 这 导致 了 第 9 
章 关于 依赖 分 析 和 第 17 章 关于 代码 调度 的 关键 问题 的 讨论 。 
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第 20 章 论述 存储 层次 优化 ， 这 也 是 由 现代 目标 机 引起 的 。 为 了 克服 处 理 器 和 存储 器 访问 速 
度 之 间 的 差 踊 ， 现 代目 标 机 引入 了 不 同 的 数据 访问 速度 。 从 本 书 出 版 商 的 网 站 上 还 可 以 得 到 额 
外 的 一 章 ， 它 讨论 了 目标 代码 转换 。 这 种 转换 是 基于 编译 技术 的 ， 它 将 一 个 程序 在 已 有 体系 结 
构 上 的 目标 代码 转换 为 新 体系 结构 的 目标 代码 ， 即 使 该 程序 在 新 体系 结构 上 的 源 程序 还 未 出 现 。 

由 于 新 语言 的 设计 一 直 鼓 励 程序 员 对 大 程序 的 结构 化 使 用 更 为 成 熟 的 方法 ， 过 程 间 分 析 和 
优化 的 重要 性 也 随 之 增加 了 。 随 着 分 析 方 法 的 不 断 精炼 和 调整 ， 以 及 更 快 的 计算 机 使 得 所 需要 
的 分 析 工 作 已 经 能 够 在 可 接受 的 时 间 内 完成 ， 这 种 分 析 和 优化 的 可 行 性 也 增加 了 。 第 19 章 专门 
讨论 过 程 间 信 息 的 确定 和 使 用 。 

编译 器 设计 本 质 上 是 一 种 工程 活动 ， 它 所 使 用 的 方法 必须 很 好 地 解决 现实 〈 即 ， 用 真实 的 
语言 书写 的 且 在 真实 的 机 器 上 执行 的 真实 的 程序 ) 中 出 现 的 各 种 翻译 问题 。 多 数 情况 下 ， 书 写 
编译 器 的 人 必须 接受 他 们 面 对 的 语言 和 机 器 ， 很 少 能 够 影响 和 改善 这 两 者 的 设计 。 做 什么 样 的 
分 析 和 转换 ， 以 及 什么 时 候 做 它们 都 是 工程 上 的 选择 ， 但 正 是 这 些 选择 决定 了 一 个 优化 编译 器 
的 速度 和 质量 。 这 些 设计 选择 在 贯穿 全 书 的 优化 方法 和 第 21 章 的 实例 研究 中 都 得 到 了 极为 重要 
的 处 理 和 体现 。 

作者 Steven S，Muchnick 最 大 的 优势 之 一 是 具有 丰富 而 广博 的 经 验 。 他 早期 曾 是 计算 机 科 
学 教授 ， 后 来 作为 惠普 的 PA-RISC 和 Sun 的 SPARC 两 种 计算 机 体系 结构 开发 团队 的 核心 成 员 ， 
将 自己 的 知识 和 经 验 应 用 于 编译 器 设计 。 每 一 种 体系 结构 的 初始 工作 完成 之 后 ， 他 就 担任 了 该 
系统 的 高 级 编译 器 设计 与 实现 小 组 的 负责 人 。 这 些 职业 经 历 对 他 确定 读者 需要 知道 高 级 编译 器 
设计 的 哪些 内 容 很 有 帮助 。 他 在 研究 和 亲身 开发 方面 的 双重 经 验 ， 对 于 指导 读者 做 出 编译 器 设 
计 决 策 极 具 价值 。 


Susan Graham 
加 利 福 尼 亚 大 学 ， 伯 克利 分 校 
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本 书 讨论 单机 编译 器 设计 和 实现 技术 领域 的 前 沿 问题 ， 重 点 讨论 编译 优化 技术 (超过 了 本 
书 60% 的 篇 幅 )。 我 们 考虑 了 支持 指令 级 并 行 的 机 器 ， 但 几乎 完全 忽略 了 大 规模 并 行 处 理 和 向 
量 处 理 的 有 关 问 题 。 

本 书 首先 讨论 编译 器 的 结构 、 符 号 表 管 理 ( 包 插 那 些 允 许 导 入 和 导出 作用 域 的 语言 )、 中 
间 代 码 结构 、 运 行 时 支持 问题 (包括 可 以 在 运行 时 链接 的 共享 对 象 )， 以 及 根据 机 器 描述 自动 
产生 代码 生成 器 等 。 之 后 ， 探 讨 过 程 内 的 (通常 称 为 “全 局 的 ”) 控制 流 分 析 、 数 据 流 分 析 、 
依赖 关系 分 析 和 别名 分 析 的 各 种 方法 ， 并 介绍 一 系列 的 全 局 优化 ， 包 括 那些 作用 于 程序 不 同 成 
分 (从 单个 表达 式 到 整个 过 程 ) 的 优化 。 接 下 来 本 书 讲述 过 程 间 的 控制 流 分 析 、 数 据 流 分 析 和 
别名 分 析 ， 以 及 过 程 间 优化 和 如 何 应 用 过 程 间 信 息 来 改善 全 局 优化 。 然 后 ， 讨 论 有 效 利用 层次 
存储 系统 的 优化 技术 。 最 后 ， 详 细 介 绍 4 个 分 别 来 自 DEC、IBM、Intel 和 Sun 微 系统 公司 的 商业 
化 编译 系统 ， 以 提供 编译 器 结构 、 中 间 代 码 设计 、 优 化 策略 和 效果 的 专门 例子 。 如 我 们 将 看 到 
的 ， 这 些 编译 系统 采用 的 技术 具有 广泛 的 代表 性 ， 并 用 不 同 的 方法 获得 了 类 似 的 效果 。 


本 书 的 写作 过 程 


1990 年 6 月 到 1991 年 ， 我 在 Sun 微 系统 公司 担任 高 级 工程 师 。 在 ACM SIGPLAN 的 程序 语言 
设计 和 实现 技术 年 会 上 ， 我 用 半天 时 间作 了 一 个 名 为 “RISC 系 统 高 级 编译 技术 ”的 讲座 。 在 
这 个 讲座 上 ， 我 用 大 约 130 张 幻灯 片 讲解 了 RISC 体 系 结构 和 相关 的 编译 技术 ,特别 是 优化 技术 。 
在 那 次 讲座 之 后 ， 我 有 了 一 个 想法 ， 即 讲座 材料 可 能 是 一 颗 渴望 着 阳光 、 土 壤 和 水 分 ， 期 待 着 
长 成 参天 大 树 的 种 子 (实际 上 ， 在 我 的 脑海 中 是 一 颗 橡 树种 子 ) ， 而 这 棵 大 树 就 是 你 面前 的 这 
本 书 。 一 年 多 后 ， 我 与 Wayne Rosing 讨 论 了 这 个 想法 ， 然 后 又 向 Sun 微 系统 实验 室 主 任 作 了 汇 
报 ， 几 周 后 他 就 决定 支持 这 本 书 的 写作 ， 并 给 予 了 一 年 半 的 时 间 和 部 分 资助 。 

本 书 的 第 一 稿 中 除了 高 级 编译 技术 外 ， 还 包含 了 相当 多 的 RISC 体 系 结构 的 内 容 。 不 久 我 
就 认识 到 (在 3 位 评阅 者 的 帮助 下 )， 不 必要 写 这 么 多 体系 结构 的 内 容 。 新 的 RISC 体 系 结构 不 
断 被 开发 出 来 ， 大 多 数 大 学 的 体系 结构 课程 都 介绍 了 研究 编译 技术 所 需要 的 相关 知识 ， 本 书 的 
重点 应 该 是 编译 技术 。 

这 导致 了 本 书写 作 方 向 的 一 次 重大 改变 。 体 系 结构 方面 的 大 多 数 内 容 都 被 删除 了 ， 仅 仅 保 
留 了 体系 结构 中 与 编译 过 程 决策 有 关 的 内 容 。 编 译 器 的 材料 也 拓宽 为 包含 了 有 关 CISC 的 编译 
技术 ， 同 时 决定 只 集中 讨论 单机 编译 技术 ， 将 并 行 化 和 向 量化 的 内 容留 待 其 他 书 去 讨论 。 有 关 
编译 技术 的 内 容 更 加 集中 和 深入 ， 有 些 方 面 缩 小 了 范围 有些 方面 又 扩大 了 范围 (例如 ， 有 关 
手工 代码 生成 的 内 容 几 平 全 部 删除 了 ， 但 添加 了 有 关 先 进 调度 技术 的 内 容 ， 如 踪迹 调度 和 渗透 
调度 )。 这 样 就 形成 了 你 面前 的 这 本 书 。 


关于 本 书 的 封面 


本 书 封面 的 图 片 是 从 作者 的 西北 海岸 民间 艺术 收藏 中 选取 的 ， 这 是 一 张 奇 尔 卡 特 毛毯 的 昭 
片 。 这 块 毛 悉 是 在 19 世 纪 晚 期 ， 由 美国 阿拉 斯 加 东南 部 的 一 个 特 里 吉 特 妇女 ， 用 红 松 内 层 树 皮 





X 


制 成 的 非常 细 的 强 子 和 山羊 毛线 编织 的 。 编 织 这 样 一 块 毛毯 通常 需要 6~9 个 月 。 这 块 毛毯 的 图 
案 分 为 3 个 部 分 。 中 间 的 一 块 描绘 了 一 条 在 水 中 潜 游 的 鲸鱼 ; 鲸鱼 头 位 于 底部 ， 是 一 个 割裂 开 
了 的 图 形 ; 中 间 有 着 鲸鱼 面部 的 那个 图 形 是 鲸鱼 的 身体 〈 在 这 类 绘画 中 ， 看 起 来 像 钱 鱼 面部 的 
图 形 并 不 表示 鲸鱼 的 面部 ) ; 鲸鱼 的 侧 鳍 在 身体 的 两 边 ; 而 顶部 是 鲸鱼 的 尾鳍 。 这 个 设计 中 的 
每 一 部 分 ， 就 本 身 而 言 ， 都 是 功能 上 的 ,并 没有 表达 什么 含意 ; 但 它们 按 正确 的 方式 组 合 起 来 ， 
就 描绘 了 一 条 在 水 中 潜 游 的 馈 鱼 ， 显 示 了 拥有 这 条 毛 秘 的 村 长 的 权力 和 特权 。 

类 似 地 ， 一 个 编译 器 的 每 个 组 件 有 着 某 种 功能 ， 但 仅 当 这 些 组 件 以 适当 的 方式 组 合 在 一 起 
时 ， 才 能 完整 地 实现 编译 器 的 功能 。 设 计 和 编织 这 样 一 块 毛毯 需要 技巧 ， 同 样 ， 构 造 工业 水 准 
的 编译 器 也 需要 技巧 。 每 个 行业 都 有 一 组 特定 的 工具 、 材 料 、 设 计 要 素 和 总 体 模 式 ， 而 所 有 这 
一 切 都 必须 按 满足 预期 用 户 的 需要 和 愿望 的 方式 组 合 到 一 起 。 


本 书 的 读者 


本 书 预期 的 读者 是 需要 了 解 设计 和 构造 单机 高 级 编译 器 有 关 问 题 的 计算 机 专业 人 员 、 研 究 
生 和 高 年 级 本 科 生 。 我 们 假定 读者 已 经 选修 了 数据 结构 、 算 法 、 编 译 器 设计 和 实现 、 计 算 机 体 
系 结构 、 汇 编 语言 程序 设计 等 课程 ， 或 已 经 具有 相当 的 工作 经 验 。 


内 容 概 览 


全 书 分 为 21 章 ， 另 有 3 个 附录 。 
SUE 高 级 主题 介绍 

这 一 章 介 绍 本 书 的 主题 ， 即 高 级 编译 器 的 设计 和 构造 ， 同 时 讨论 编译 器 的 结构 和 编译 优化 
的 重要 性 ， 并 介绍 本 书 内 容 的 组 织 结 构 。 
第 2 章 ” 非 形式 化 编译 算法 表示 


第 2 章 介绍 了 一 种 称 为 ICAN 的 非 形 式 化 的 程序 设计 表示 方法 ， 并 给 出 了 有 关 例 子 。 这 种 表 
示 方 法 用 于 表示 本 书 中 的 编译 算法 。 在 介绍 了 这 种 语言 的 语法 符号 之 后 ， 我 们 给 出 了 ICAN 的 
概述 ， 接 着 详细 描述 了 该 语言 。 读 者 读 了 ICAN 的 概述 ， 就 是 以 读 懂 本 书 中 的 大 多 数 算法 ， 只 
是 在 很 少 的 情况 下 ， 才 需要 了 解 ICAN 的 全 部 细节 。 
第 3 章 符号 表 结构 


第 3 章 首先 讨论 变量 的 属性 ， 例 如 存储 类 、 可 见 性 、 易 变性 、 作 用 域 、 大 小 、 类 型 、 对 齐 、 
结构 、 寻 址 方法 等 。 然 后 给 出 了 高 效 地 构造 和 管理 局 部 和 全 局 符号 表 的 方法 ， 包 括 导 人 的 和 导 
出 的 作用 域 (在 Ada、Mesa、Modula-2 中 存在 这 种 情况 )、 存 储 绑 定 ， 以 及 在 考虑 上 述 属性 的 
前 提 下 产生 取 、 存 指令 的 方法 。 

第 4 章 中间 表示 

这 一 章 集中 介绍 中 间 语 言 的 设计 、 本 书 专用 的 三 种 中 间 语 言 ， 以 及 编译 器 中 可 能 使 用 的 中 
间 代 码 的 其 他 基本 形式 。 我 们 使 用 了 密切 相关 的 高 、 中 、 低 三 种 形式 的 中 间 语 言 ， 以 便 能 够 深 
入 说 明 书 中 讨论 的 所 有 优化 算法 。 我 们 还 讨论 了 本 书 使 用 的 中 间 语 言 和 其 他 中 间 语 言 的 相对 重 
要 性 以 及 它们 的 用 途 。 

另外 两 种 更 详细 的 中 间 代 码 形式 ， 即 静态 单 赋值 (SSA) 和 程序 依赖 图 分 别 在 8.11 节 和 9.5 
节 中 讨论 。 
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第 5 章 运行 时 支持 

第 5 章 关 注 的 问题 主要 与 运行 时 支持 用 高 级 程序 设计 语言 编写 的 程序 有 关 ， 我 们 讨论 了 数 
据 表示 、 寄 存 器 使 用 、 运 行 时 栈 和 栈 帧 的 设计 、 参 数 传递 、 过 程 结构 和 链接 、 过 程 值 变量 、 代 
码 共享 、 位 置 无 关 代 码 ， 以 及 为 支持 符号 和 多 态 语 言 涉及 的 一 些 问 题 。 
Bex ”自动 产生 代码 生成 器 


第 6 章 讨论 根据 机 器 描述 自动 产生 代码 生成 器 的 方法 。 我 们 详细 给 出 了 Graham-Glanville 的 
语法 制导 技术 ， 并 介绍 了 另外 两 种 方法 ， 即 语义 制导 分 析 和 树 模式 匹配 。 
第 7 章 控制 流 分 析 

这 一 章 和 随后 的 三 章 讨论 作用 于 过 程 的 4 种 分 析 方法 ， 这 些 分 析 对 于 实现 正确 和 有 效 的 程 
序 优化 至 关 重 要 。 

第 7 章 重 点 讨论 确定 过 程 中 的 控制 流 和 构造 控制 流 图 (CFG) 的 方法 。 我 们 首先 综述 了 车 
干 种 可 能 使 用 的 方法 ， 然 后 详细 讨论 其 中 的 三 种 。 第 一 种 是 采用 深度 为 主 搜索 和 必 经 结 点 的 传 
统 方法 。 在 讨论 它 的 同时 ， 我 们 也 将 讨论 流 图 的 遍历 ， 如 CFG 的 前 序 遍 历 和 后 序 遍 历 ， 以 及 查 
找 CFG 的 强 连通 子 图 。 另 外 两 种 方法 依赖 于 可 归 约 性 的 概念 ， 它 使 得 过 程 的 控制 流 图 可 以 层次 
式 地 构成 。 这 两 种 方法 分 别称 为 区 间 分 析 和 结构 分 析 ， 两 者 之 间 的 不 同 在 于 它们 辨别 的 结构 单 
元 的 类 型 。 我 们 也 讨论 了 用 所 谓 的 控制 树 表示 一 个 过 程 的 层次 结构 方法 。 

第 8 章 数据 流 分 析 


第 8 章 讨论 确定 过 程 中 数据 流 的 方法 。 它 从 一 个 例子 开始 ， 然 后 讨论 数据 流 分 析 所 依赖 的 
基本 数学 概念 ， 即 格 、 流 函数 和 不 动 点 。 接 下 来 给 出 数据 流 问 题 和 解法 的 分 类 ， 然 后 详细 讨论 
与 前 一 章 3 种 控制 流 分 析 方 法 对 应 的 3 种 数据 流 分 析 方 法 。 第 一 种 方法 是 迭代 数据 流 分 析 ， 它 对 
应 于 使 用 深度 为 主 搜索 和 必 有 经 结 点 的 控制 流 分 析 。 另 两 种 数据 流 分 析 方 法 与 基于 控制 树 的 两 种 
控制 流 分 析 对 应 ， 并 分 别 具 有 与 它们 相同 的 名 字 : 区 间 分 析 和 结构 分 析 。 在 此 之 后 ， 我 们 概述 
一 种 少见 的 称 为 位 置式 分 析 的 新 技术 ， 并 描述 表示 数据 流 信息 的 方法 ， 即 du 链 、ud 链 、 网 
(web) 和 静态 单 赋值 形式 (或 SSA )。 最 后 考虑 有 关 数组 、 结 构 和 指针 的 处 理 ， 并 以 关于 数据 
流 分 析 器 自动 构造 方法 的 讨论 结束 本 章 。 

第 9 章 依赖 关系 分 析 和 依赖 图 


第 9 章 关 注 依赖 关系 分 析 ， 以 及 与 依赖 分 析 密 切 相关 ，、 称 为 程序 依赖 图 的 中 间 代 码 形式 ， 
其 中 的 依赖 关系 分 析 是 对 数组 和 低级 存储 引用 进行 数据 流 分 析 的 一 种 简易 方法 。 我 们 首先 讨论 
依赖 关系 ， 然 后 讨论 如 何 计算 基本 块 中 的 依赖 关系 ， 这 些 内 容 对 于 第 17 章 中 要 介绍 的 代码 调度 
技术 至 关 重要 。 接 着 讨论 循环 中 的 依赖 关系 以 及 依赖 关系 测试 方法 ， 它 们 是 第 20 章 讨论 数据 存 
储 优化 的 基础 。 最 后 讨论 程序 依赖 图 ， 这 是 一 种 直接 表示 控制 和 数据 依赖 的 中 间 代 码 形式 ， 用 
它 来 进行 一 系列 的 程序 优化 比 用 隐 含 着 依赖 信息 的 中 间 代 码 来 进行 程序 优化 要 更 为 有 效 。 
第 10 章 ”别名 分 析 

第 10 章 讨论 别名 分 析 ， 这 种 分 析 确 定 一 个 存储 单元 是 否 有 可 能 由 多 个 访问 路 径 访 问 ， 例 如 
既 可 用 名 字 也 可 通过 指针 来 访问 。 我 们 首先 讨论 在 Fortran 77、Pascal、C 和 Fortran 90 等 语言 中 
别名 对 程序 的 影响 。 接 着 讨论 一 种 非常 通用 的 对 过 程 内 出 现 的 别名 进行 判定 的 方法 ， 这 种 方法 
由 一 个 与 语言 相关 的 别名 收集 器 和 一 个 与 语言 无 关 的 别名 传播 器 组 成 。 可 以 对 别名 收集 器 和 传 
播 器 作 裁 前 来 提供 信息 ， 这 些 信息 可 以 是 依赖 于 或 不 依赖 于 过 程控 制 流 的 信息 ， 也 可 以 是 用 其 
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他 多 种 方式 提供 的 信息 ， 从 而 使 得 它 成 为 一 种 能 够 适应 特定 程序 设计 语言 编译 器 需要 和 时 间 限 
制 的 通用 方法 。 
第 11 章 ”优化 简介 

第 11 章 介绍 代码 优化 的 内 容 ， 它 首先 讨论 了 这 样 一 个 事实 ， 即 ， 尽 管 大 多 数 优 化 的 适用 性 
和 有 效 性 是 递归 不 可 判定 的 ， 但 仍然 值得 对 于 适用 性 和 有 效 性 是 确定 的 程序 施加 这 些 优 化 ， 并 
且 对 第 12~18 章 涉及 的 过 程 内 优化 技术 作 了 一 番 快 速 浏览 。 然 后 讨论 了 流 敏感 性 和 可 能 与 一 定 
信息 ， 如 何 将 这 些 信息 应 用 于 优化 ， 特 定 优 化 的 相对 重要 性 ， 以 及 它们 应 有 的 执行 顺序 。 
第 12 童 前 期 优化 

本 章 讨论 在 优化 过 程 的 较 早 阶 段 实行 的 一 些 优化 技术 ， 包 括 聚 合 量 的 标量 替代 、 局 部 和 全 
局 值 编 号 (施加 于 SSA 形 式 的 代码 )、 局 部 和 全 局 复写 传播 、 稀 有 条 件 当 数 传播 (同样 施加 于 
SSA 形 式 的 代码 )。 本 章 还 将 讨论 常数 表达 式 求 值 ( 或 常数 折合 ) 和 代数 化 简 ， 以 及 如 何在 优 
化 器 中 以 子 程序 的 形式 实现 它们 ， 以 便 可 随时 根据 需要 而 调用 。 
第 13 章 ”元 余 删除 


第 13 章 关注 几 种 类 型 的 宛 余 删 除 。 元 余 删 除 的 基本 功能 是 删除 过 程 中 一 条 路 径 上 多 于 一 次 
执行 的 计算 。 本 章 描述 了 局 部 和 全 局 公共 子 表达 式 删除 、 向 前 蔡 换 、 循 环 不 变 代码 外 提 、 部 分 
元 余 删 除 和 代码 提升 。 


第 14 章 循环 优化 

第 14 章 研究 施加 于 循环 的 优化 技术 ， 包 括 归 纳 变 量 的 识别 、 强 度 前 弱 、 归 纳 变 量 删除 、 线 
性 函数 测试 替换 和 不 必要 边界 检查 的 删除 。 
第 15 章 ”过 程 优化 

第 15 章 给 出 施加 于 过 程 的 优化 技术 ， 讨 论 了 尾 调 用 优化 〈 包 括 尾 递归 删除 )、 过 程 集成 、 
内 人 网 扩展 、 叶 例 程 优化 和 收缩 包装 。 
第 16 章 ”寄存 器 分 配 


第 16 章 关注 过 程 内 的 寄存 器 分 配 和 指定 。 我 们 首先 讨论 局 部 的 、 基 于 代价 的 方法 ， 然 后 讨 
论 图 着 色 法 。 我 们 讨论 了 作为 寄存 器 分 配对 象 的 网 、 冲 突 图 、 冲 突 图 的 着 色 以 及 溢出 代码 的 生 
成 。 在 此 之 后 ， 简 要 给 出 了 使 用 过 程 的 控制 树 进行 寄存 器 分 配 的 方法 。 


第 17 章 ”代码 调度 


第 17 章 集中 讨论 局 部 和 全 局 指令 调度 ， 这 种 调度 通过 重 排 指令 的 顺序 来 发 挥 现代 处 理 器 中 
流水 线 的 最 佳 性 能 。 局 部 调度 有 两 种 途径 ， 一 种 是 表 调度 ， 它 处 理 一 个 基本 块 内 的 指令 序列 ; 
另 一 种 是 分 支 调度 ， 它 处 理 基本 块 之 间 的 连接 。 接 着 我 们 考察 跨 基本 块 边界 的 调度 方法 ， 包 括 
前 瞻 取 和 提升 。 然 后 讨论 两 种 软 流水 方法 ， 称 为 窗口 调度 和 展开 -- 压 实 。 接 下 来 讨论 循环 展开 、 
变量 扩展 、 寄 存 器 重 命名 和 层次 归 约 技术 ， 前 三 种 技术 增加 了 调度 的 自由 度 ， 层 次 归 约 技术 处 
理 焦 在 循环 中 的 控制 结构 。 最 后 以 踪迹 调度 和 渗透 调度 两 种 全 局 调度 方法 来 结束 本 章 。 


第 18 音 ”控制 流 和 低级 优化 


第 18 章 研究 控制 流 优化 和 通常 施加 于 低级 形式 的 中 间 代 码 上 或 类 汇编 语言 表示 上 的 一 些 优 
化 。 这 些 优 化 包括 不 可 到 达 代 码 的 删除 、 伸 直 化 、 让 化 简 、 循 环 化 简 、 循 环 倒置 、 无 开关 化 、 
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分 支 优化 、 尾 融合 〈 又 称 交 叉 转 移 )、 条 件 传 送 指令 的 使 用 、 死 代码 删除 、 内 做 扩 展 、 分 支 预 
测 、 机 器 方言 、 指 令 归并 ， 以 及 寄存 器 合并 或 归并 。 


第 19 章 ”过 程 间 分 析 与 优化 


第 19 章 关注 将 分 析 和 优化 技术 推广 到 处 理 整个 程序 的 技术 。 它 讨论 过 程 间 的 控制 流 分 析 、 
数据 流 分 析 、 别 名 分 析 以 及 各 种 变换 ， 给 出 两 种 方法 ， 分 别 用 于 流 不 敏感 副作用 分 析 和 别名 分 
析 , 同时 给 出 一 种 计算 流 敏感 性 副作用 和 进行 过 程 间 常 数 传 播 的 算法 。 然 后 讨论 过 程 间 的 优化 ， 
并 将 过 程 间 的 信息 应 用 于 过 程 内 的 优化 ， 之 后 是 过 程 间 寄 存 器 分 配 和 全 局 引用 的 聚合 。 最 后 计 
论 将 过 程 间 分 析 和 优化 集成 到 编译 器 优化 序列 中 时 应 有 的 顺序 。 
第 20 章 存储 层次 优化 

第 20 章 讨论 发 挥 大 多 数 系统 都 具有 的 层次 存储 器 ， 特 别 是 多 级 高 速 缓存 效率 的 优化 技术 。 
我 们 首先 讨论 数据 和 指令 高 速 缓存 对 程序 性 能 的 影响 。 然 后 考虑 指令 高 速 缓存 的 优化 ， 包 括 指 
令 预 取 、 过 程 排序 、 过 程 和 基本 块 的 放置 、 过 程 内 的 代码 安置 、 过 程 分 裂 ， 以 及 过 程 内 和 过 程 
间 方法 的 结合 。 

接 下 来 我 们 讨论 数据 高 速 绥 存 的 优化 ,主要 集中 于 循环 变换 。 我 们 不 全 面 地 研究 这 个 问题 ， 
而 是 选择 部 分 问题 进行 详细 讨论 ， 例 如 数组 元 素 的 标量 替换 和 数据 预 取 ， 并 且 对 于 其 他 问题 只 
概要 性 地 给 出 定义 、 术 语 和 技术 ， 它 们 涉及 到 的 问题 ， 以 及 相关 技术 的 若干 例子 。 这 些 技术 包 
括 数据 重用 、 局 部 化 、 循 环 铺 砌 、 标 量 优化 与 面向 存储 器 的 优化 之 间 的 相互 作用 。 我 们 这 样 写 
是 因为 这 一 方面 的 技术 非常 新 ， 以 至 于 难以 准确 地 选择 权威 性 的 优化 算法 。 


第 21 章 ”编译 器 实例 分 析 与 未 来 的 发 展 趋势 


第 21 章 给 出 4 个 商业 化 编译 器 的 实例 ， 它 们 涉及 了 目标 机 体系 结构 、 编 译 设 计 技 术 、 中 间 
代码 表示 和 优化 技术 的 各 个 方面 。 这 4 种 体系 结构 是 : Sun 微 系统 的 SPARC、IBM 的 POWER 
(和 PowerPC)、Digital Equipment 的 Alpha 以 及 Intel 386 系 列 。 对 于 其 中 的 每 一 种 ， 我 们 首先 简 
要 讨论 它 的 体系 结构 ， 然 后 介绍 硬件 厂家 为 它 提供 的 编译 器 。 


附录 A 本 书 使 用 的 汇编 语言 指南 

附录 A 对 本 书 使 用 的 每 一 种 汇编 语言 给 出 一 个 简短 的 描述 ， 使 读者 能 更 容易 地 理解 书 中 的 
例子 。 它 包含 了 关于 SPARC、POWER ( 和 PowerPC)、Alpha、Intel 386 体 系 结构 系列 以 及 PA- 
RISC 等 汇编 语言 的 讨论 。 
附录 B 集合、 序列、 树 、DAG 和 函数 的 表示 


附录 B 对 书 中 大 多 数 抽象 数据 结构 的 具体 表示 作 一 番 快 速 的 回顾 ， 它 不 能 代替 数据 结构 课 
程 ， 但 可 以 作为 一 些 问题 和 方法 的 备用 参考 。 
附录 C 软件 资源 

附录 C 给 出 可 通过 匿名 FTP 或 万 维 网 访问 的 一 些 软件 ， 这 些 软件 可 作为 教学 中 的 编译 器 实 
现 课题 的 基础 ， 在 某 些 情 况 下 ， 这 些 软件 甚至 可 作为 公司 研制 编译 器 的 基础 。 
参考 文献 

最 后 的 参考 文献 列 出 了 针对 本 书 所 涉及 问题 的 大 量 进 一 步 阅读 材料 。 
索引 

书 末 附 有 一 个 索引 ， 其 中 列 出 了 本 书 涉及 的 各 种 语法 符号 和 各 个 主题 。 
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补遗 、 资 源 和 网 络 扩充 的 内 容 


每 一 章 的 结尾 都 给 出 了 若干 习题 。 高 级 习题 在 左 页 边 标 注 了 ADV， 研 究 性 的 习题 标注 了 
RSCH。 部 分 习题 解答 的 电子 版 可 以 从 原 出 版 社 获得 。 与 本 书 相关 的 资料 可 以 在 关于 本 书 的 如 
下 网 址 找到 : http:// books.elsevier. com/us//mk/us /subindex.asp? maintarget =companions/ 
defaultindividual.asp&cisbn=1558603204。 教 师 如 需 本 书 习题 的 解答 ， 请 直接 与 原 出 版 社 联系 。 


资源 

如 上 所 述 ， 附 录 C 给 出 了 可 用 于 构建 编译 器 项 目的 自由 软件 及 获取 的 途径 。 从 上 述 网 址 中 
也 可 获得 整个 附录 ， 连 同 它 给 出 的 那些 资源 的 地 址 链接 。 
网 络 扩充 的 内 容 


可 以 从 出 版 社 的 上 述 网 址 得 到 关于 目标 代码 转换 的 补充 材料 ， 这 是 一 种 从 一 种 体系 结构 的 
目标 代码 (而 不 是 从 源 程序 ) 得 到 另 一 种 体系 结构 的 目标 代码 的 转换 。 该 网 址 上 的 扩充 内 容 讨 
论 了 目标 代码 编译 过 程 的 原理 ， 然 后 集中 讨论 了 3 个 例子 ， 即 Hewlett-Packard 的 HP3000 到 PA- 
RISC 的 变换 器 OCT、 数 字 设 备 公 司 (DEC) 的 VAX VMS 到 Alpha 的 变换 器 VEST 和 MIPS 到 
Alpha 的 变换 器 mx。 
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第 1 章 高 级 主题 介绍 


我 们 首先 回顾 编译 器 的 结构 ， 然 后 给 出 本 书后 续 各 章 讨论 编译 器 的 设计 和 实现 高 级 主题 所 
需要 的 基础 知识 。 具 体 地 ， 我 们 首先 回顾 与 编译 器 结构 有 关 的 基本 知识 ， 概 述 第 3 章 到 第 6 章 中 
关于 符号 表 的 结构 与 访问 、 中 间 代 码 的 形式 、 运 行 时 的 表示 以 及 代码 生成 器 的 自动 生成 等 高 级 
论题 。 然 后 ， 我 们 论述 优化 对 于 提高 代码 运行 速度 的 重要 性 ， 介 绍 优化 编译 器 的 几 种 可 能 的 结 
构 ， 以 及 激进 型 优化 编译 器 中 各 种 优化 的 组 成 。 接 下 来 是 关于 本 书 各 章 的 阅读 流程 。 后 面 三 节 
列 出 了 本 书 没有 包含 的 相关 主题 、 例 子 中 所 用 的 目标 机 和 数 的 表示 ， 以 及 我 们 用 于 表示 各 种 数 
据 大 小 的 名 字 。 最 后 是 小 结 、 进 一 步 阅 读 的 文献 以 及 除了 最 后 一 章 之 外 每 一 章 都 有 的 练习 。 


1.1 编译 器 结构 回顾 


严格 地 说 ， 编 译 器 是 一 个 将 高 级 语言 编写 的 程序 转换 成 能 在 一 台 计 算 机 上 执行 的 等 价目 标 代 
码 或 机 器 语言 程序 的 软件 系统 。 因此, 一 个 特定 的 编译 器 可 以 在 一 台 IBM 兼 容 的 个 人 计算 机 上 运行 ， 
并 将 Fortran 77 编 写 的 程序 转换 为 能 在 PC 上 运行 的 intel 386 体 系 结构 的 目标 代码 。 这 个 定义 可 以 扩展 
到 包含 将 一 种 高 级 语言 程序 转换 成 另 一 种 高 级 语言 程序 的 系统 ， 从 一 种 机 器 语言 程序 转换 成 另 一 种 
机 器 语言 程序 的 系统 ， 从 一 种 高 级 语言 程序 转换 成 一 种 中 间 语 言 程序 的 系统 ， 等 等 。 例 如 ， 在 这 种 
广义 定义 下 ， 我 们 可 能 有 一 个 在 Apple Macintosh 机 上 运行 的 编译 器 ， 它 将 Motorola M68000 
Macintosh 的 目标 代码 转换 成 能 在 基于 PowerPC 微 处 理 器 的 Macintosh 机 上 运行 的 PowerPC 的 目标 代码 。 

在 狭义 的 定义 下 ， 一 个 编译 器 由 一 系列 的 阶段 组 成 ， 这 些 阶段 从 要 编译 的 源 程序 的 字符 序 
列 开 始 ， 依 次 对 一 个 给 定形 式 的 程序 进行 分 析 ， 并 产生 一 种 新 的 形式 ， 在 大 多 数 情况 下 最 终 产 
生 一 个 可 以 与 其 他 目标 代码 链接 ， 并 装 入 一 台 机 器 的 存储 器 中 执行 的 可 重 定位 目标 模块 。 如 同 
任意 一 本 编译 器 基础 教科 书 所 述 , 这 一 编译 过 程 至 少 有 如 图 1-1 所 示 的 4 个 阶段 , 这 些 阶段 分 别 是 : 


符号 表 和 访问 十 -- - ~ 
它 的 子 例 程 p vem C] 操作 系统 接口 






中 间 代 码 eae 


Mena 


可 重 定位 目标 模块 或 
可 运行 机 器 代码 






图 1-1 一 个 简单 编译 器 的 高 层 结构 
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1. 词法 分 析 (lexical analysis)， 它 分 析 提 交 的 字符 串 ， 将 其 划分 为 一 组 符合 编程 语言 词法 规 
范 的 单词 〈 如 果 字 符 串 不 能 转换 为 一 串 合 法 的 单词 串 ， 将 报告 错误 信息 )。 

2. 语法 分 析 (syntactic analysis or parsing)， 它 处 理 单词 曲 ， 产生 中 间 表 示 ， 如 语法 分 析 树 
或 连续 的 中 间 代 码 (作为 一 个 例子 ， 参 见 4.6.1 节 中 MIR 的 定义 )， 以 及 符号 表 。 符 号 表 记 录 程 
序 中 所 使 用 的 标识 符 和 它们 的 属性 (如果 单词 早 中 有 语法 错误 ， 将 报告 错误 信息 )。 

3. 静态 语义 检查 (static-semantic validity or semantic checking)， 它 以 中 间 代 码 和 符号 表 为 输 
入 ， 确 认 程序 是 否 满足 源 语言 要 求 的 静态 语义 属性 ， 也 就 是 说 ， 标 识 符 的 声明 和 使 用 是 否 一 致 
(如 果 程 序 在 语义 上 不 一 致 或 在 其 他 某 一 方面 不 满足 源 语言 定义 的 要 求 ， 将 报告 错误 信息 )。 

4. 代码 生成 (code generation)， 它 将 中 间 代 码 转 换 成 可 重 定位 目标 模块 或 可 直接 运行 的 目 
标 代 码 形式 的 等 价 机 器 代码 。 

检测 出 来 的 错误 可 能 是 警告 性 的 或 致命 性 的 ， 在 后 一 种 情况 下 ， 编 译 过 程 可 能 终止 。 

除了 这 4 个 阶段 ， 编 译 器 还 包含 一 张 符 号 表 和 访问 该 表 的 若干 例 程 ， 以 及 与 操作 系统 和 用 
户 环境 的 接口 (用 来 读 写 文件 、 读 取 用 户 的 输入 、 向 用 户 输出 信息 ， 等 等 )， 它 们 在 编译 过 程 
的 所 有 阶段 都 能 使 用 (如 图 1-1 所 示 )。 在 构造 与 操作 系统 和 用 户 环 境 的 接口 时 采取 一 定 措施 ， 
就 可 以 支持 编译 器 在 不 同 的 操作 系统 上 运行 ， 而 不 用 改变 编译 器 与 操作 系统 之 间 的 接口 。 除 了 
第 21 章 外 ， 下 面 编 译 器 的 结构 图 中 将 不 再 包括 符号 表 或 操作 系统 接口 。 

对 于 许多 高 级 语言 而 言 ， 编 译 器 的 4 个 阶段 可 以 组 合成 一 遍 ， 从 而 构成 一 个 快速 的 一 遍 编 
译 器 。 这 样 的 编译 器 对 于 要 求 不 高 的 用 户 是 完全 可 以 满足 的 ， 它 也 可 作为 软件 开发 环境 中 进行 
增 量 编译 的 一 个 选择 ， 目 的 是 在 编辑 - 编译 - 调试 循环 中 ， 对 程序 的 修改 能 快速 地 进行 编译 和 
调试 。 然 而 ， 通 常 不 能 指望 这 样 的 编译 器 产生 非常 高 效 的 代码 。 

另 一 种 选择 是 将 词法 分 析 和 语法 分 析 阶 段 组 合成 第 一 遍 ， 产 生 符 号 表 和 某 种 形式 的 中 间 代 
码 9S 。 语 义 检 查 和 由 中 间 代 码 生成 目标 代码 作为 第 二 遍 ， 或 各 自作 为 独立 的 一 遍 (也 可 以 在 第 
一 遍 中 完成 大 部 分 的 语义 检查 )。 编 译 器 生成 的 目标 代码 可 以 是 可 重 定位 的 目标 机 器 代码 或 汇 
编 语言 ， 汇 编 语言 就 需要 再 用 汇编 器 来 生成 可 重 定位 目标 代码 。 一 个 程序 或 一 部 分 程序 被 编译 
后 ,通常 需要 进行 链接 ,使 它们 与 相关 的 库 例 程 连接 起 来 ， 再 由 装载 程序 将 其 读 入 至 存储 器 中 
并 重 定位 生成 可 运行 的 上 映像。 链接 可 以 在 运行 前 进行 (静态 地 )， 也 可 在 运行 中 进行 (动态 地 )， 
或 分 两 阶段 进行 ， 即 静态 链接 用 户 程序 的 各 部 分 ， 动 态 链接 系统 的 库 例 程 。 


1.2 基本 问题 中 的 高 级 论题 


本 节 就 第 3 章 到 第 6 章 讨论 的 符号 表 设 计 和 访问 、 中 间 代 码 设计 、 运 行 时 表示 和 代码 生成 器 
的 自动 生成 等 高 级 论题 作 一 个 简介 。 这 些 论题 中 的 基本 问题 通常 在 编译 器 设计 和 实现 的 早期 课 
程 中 就 重点 讨论 过 。 然 而 ， 当 考虑 支持 一 个 其 风格 不 如 教科 书 所 给 那么 规整 的 语言 时 ， 这 些 问 
题 就 变 得 复杂 起 来 了 。 

符号 表 的 设计 一 直 以 来 在 很 大 程度 上 说 它 是 一 种 玄妙 的 艺术 比 说 它 是 科学 原理 更 合适 。 
这 样 说 的 部 分 理由 是 因为 符号 表 的 属性 随 语言 的 不 同 而 变化 ， 也 因为 全 局 符号 表 最 重要 的 方 
面 是 它 的 接口 和 性 能 。 对 于 不 同 的 基础 数据 结构 ， 如 栈 、 各 种 树 、 散 列表 等 ， 组 织 一 个 能 快 
速 查 填 的 符号 表 的 方法 也 各 不 相同 ， 这 些 方法 都 很 值得 介绍 。 我 们 在 第 3 章 将 介绍 其 中 的 一 


O 某 些 语言 ， 例 如 Fortran ， 为 了 正确 地 分 析 程 序 ， 要 求 词 法 分 析 和 语法 分 析 协 同 进 行 。 例 如 ， 对 于 一 行 
Fortranfti "do 32 i=1”， 不 进行 超前 搜索 ， 就 不 能 确定 等 号 之 前 的 字符 是 3 个 单词 还 是 一 个 单词 。 如 果 1 
之 后 是 一 个 逗号 ， 则 等 号 前 是 3 个 单词 ， 这 个 语句 是 一 个 循环 的 开始 。 如 果 1 是 这 一 行 的 结束 ， 则 等 号 之 前 是 
一 个 单词 ， 它 可 以 写作 “do321”， 这 个 语句 是 一 个 赋值 语句 。 
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些 方法 ， 但 重点 介绍 一 种 栈 、 散 列 和 链表 组 合 的 方法 ， 这 种 方法 能 够 通过 扩展 Fortran CH 
Pascal 等 语言 的 简单 栈 模式 ， 满 足 Ada、Mesa、Modula-2 和 C++ 等 语言 可 导入 和 导出 作用 域 
的 要 求 。 
中 间 代 码 的 设计 在 相当 大 的 程度 上 也 是 一 种 技巧 ， 而 不 是 科学 。 有 人 说 有 多 少 种 编译 
器 套件 ， 就 有 多 少 种 中 间 语 言 设 计 ， 但 这 种 估计 可 能 比 实际 的 少 了 一 半 左 右 。 事 实 上 ， 由 
于 许多 编译 器 使 用 两 种 以 上 不 同 的 中 间 代 码 ， 中 间 代 码 设计 方案 数 可 能 两 倍 于 编译 器 套件 
种 类 数 ! 
因此 第 4 章 研 究 中 间 代 码 设计 中 遇 到 的 有 关 问 题 ， 讨 论 各 种 设计 方案 的 优 缺 点。 为 了 便于 

进一步 讨论 作用 于 中 间 代 码 的 各 种 优化 算法 ， 我 们 最 终 必须 选择 一 种 或 几 种 中 间 代 码 作为 具体 
的 例子 。 我 们 选用 如 下 4 种 中 间 代 码 : HIR， 一 种 高 级 中 间 表 示 ， 它 保留 了 循环 结构 、 循 环 上 
下 界 和 数组 下 标 ， 用 于 与 数据 高 速 缓存 相关 的 优化 ; MHR ， 一 种 中 级 中 间 表 示 ， 本 书 在 大 多 数 
情况 下 使 用 这 种 中 间 语 言 ，LIR， 一 种 低级 中 间 表 示 ， 用 于 那些 必须 涉及 真实 机 器 特征 的 优化 ， 
但 用 于 全 局 寄存 器 分 配 时 有 一 点 变化 ， 即 它 涉及 的 是 符号 寄存 器 ， 而 不 是 真实 的 机 器 寄存 器 ; 
SSA 形 式 ， 它 可 以 看 作 是 增加 了 一 个 额外 操作 的 MIR 中 间 语 言 版 本 ， 这 个 操作 即 % 函 数 ， 我 们 
几乎 总 是 只 在 流程 图 中 使 用 它 ， 而 不 在 顺序 程序 中 使 用 它 。 图 1-2 给 出 了 一 个 HIR 循 环 、 它 的 
MIR 形 式 ， 以 及 它 使 用 符号 寄存 器 的 LIR 形 式 。 

v€ vi s2 € si 

t2 «- v2 84 < s3 

t3 < v3 s6 «- sb 

: if v > t3 goto L2 : if s2 > s6 goto L2 

t4 < addr a s7 < addr a 


t5 € 4*i s8 < 4 * s9 
t6 «- t4 * t5 S10 < s7 + s8 


*t6 «- 2 [s10] < 2 
for v «- vi by v2 to v3 do vevet2 S2 < s2 + s4 
ali] < 2 goto Li | goto L1 
endfor : : 





a) b) c) 
图 1-2 用 a) HIR, b) MIR 和 c) 使 用 符号 寄存 器 的 LR 表示 的 一 个 代码 段 (假设 v2 的 值 为 正 ) 


图 1-3 给 出 了 该 循环 的 SSA 形 式 , 除了 被 转换 为 流程 图 形式 ,并 且 符 号 寄存 器 s2 被 分 为 3 个 ， 
即 s2;、s22、s2:， 而 且 在 基本 块 B2 的 开始 处 ， 即 s2: 和 s2: 的 汇合 点 增加 了 一 个 g 函 数 之 外 ， 
它 的 代码 与 图 1-2c 相 同 。SSA 的 主要 优点 是 使 以 前 用 于 基本 块 或 扩展 基本 块 的 几 种 优化 也 能 
很 好 地 用 于 整个 过 程 ， 这 常常 能 显著 地 改善 程序 的 性 能 。 

另 一 种 对 好 几 种 优化 非常 有 用 的 中 间 代 码 形式 ， 即 程序 依赖 图 ， 将 在 9.5 节 讨论 。 

第 5 章 集 中 讨论 构造 程序 执行 所 处 的 运行 时 环境 的 问题 。 运 行 时 环境 同 代码 生成 一 起 ， 是 
保证 正确 和 高 效 地 实现 一 个 语言 的 少数 儿 个 关键 环节 之 一 。 如 果 所 设计 的 运行 时 模式 不 支持 语 
言 中 的 某 些 操 作 ， 这 个 设计 显然 就 是 失败 的 。 如 果 能 够 支持 语言 的 运行 ， 但 比 需 要 的 要 慢 ， 就 
会 对 程序 的 性 能 产生 较 大 的 影响 ， 而 这 种 影响 一 般 不 能 通过 程序 优化 来 弥补 。 运 行 时 环境 的 基 
本 问题 包括 源 程序 中 的 数据 类 型 的 表示 、 寄 存 器 的 分 配 和 使 用 、 运 行 时 栈 空间 的 布局 、 对 非 局 


O 扩展 基本 块 是 一 棵 由 基本 块 组 成 的 树 ， 这 棵 树 只 能 从 根 结 点 进入 、 从 某 个 叶 结 点 离开 。 
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部 符号 的 访问 ， 以 及 过 程 的 调用 、 入 口 、 出 口 和 返回 。 另 外 ， 我 们 也 将 讨论 运行 时 模式 为 支持 

位 置 无 关 代码 所 需 的 扩展 ， 以 及 如 何 运 用 这 些 扩展 来 实 

现 共享 代码 对 象 运行 时 的 高 效 动态 链接 。 对 于 编译 动态 

和 多 态 语言 时 必须 考虑 的 一 些 额外 问题 ， 例 如 递增 地 改 Bi 

变 运 行 代码 ， 堆 存储 管理 和 运行 时 类 型 检查 (以 及 运行 

时 类 型 检查 的 优化 ， 或 在 可 能 时 类 型 检查 的 消除 )， 我 

们 给 出 了 一 个 综述 。 B2 

最 后 ， 第 6 章 考 虑 根据 机 器 描述 自动 产生 代码 生成 器 的 > 

方法 。 这 一 章 详细 描述 了 一 种 技术 ， 即 语法 制导 的 Graham- 

Glanville 方 法 ， 并 简要 介绍 了 另外 两 种 方法 ， 即 Ganapathi 和 S7 < addr a 
oto ee? - 

[s10] < 2 

82, *- s2, + 84 











Fischer 的 语义 制导 分 析 方 法 以 及 Aho、Ganapathi 和 Tjiang 的 
twig 方 法 。twig 方 法 采用 树 模式 匹配 和 动态 规划 。 与 手工 编 
写 的 代码 生成 器 相 比 ， 这 些 方法 的 好 处 在 于 它们 使 得 程序 
员 能 在 较 高 层次 上 思考 ， 并 且 能 方便 地 随时 修改 代码 生成 


B3 


器 ， 不 论 是 改 错 、 改 进 ， 还 是 使 其 适应 新 的 目标 机 。 ELS 图 12 中 例子 的 SSA 形 式 。 注 意 ， 
S294) J9s2,. s2,Fils2, 三 个 变量 , 在 
1.9 代码 优化 的 重要 性 基本 块 B2 开 始 处 增加 了 9 函数 


通常 ， 使 用 如 1.1 节 描述 的 一 遍 编译 器 生成 的 目标 代码 效率 较 低 ， 如 果 进 行 更 多 的 编译 ， 
效率 就 会 有 较 大 的 提高 。 例 如 ， 一 饥 编 译 器 可 能 逐条 表达 式 地 顺序 生成 目标 代码 ， 使 得 图 1-4a 
的 C 语 言 代码 段 可 能 生成 如 图 1-4b 所 示 的 SPARC 汇 编 代 码 ?。 如 果 该 编译 器 对 这 段 代码 进行 优 
化 ， 包 括 将 变量 分 配 到 寄存 器 中 ， 就 可 以 得 到 如 图 1-4c 所 示 更 高 效 的 代码 。 即 使 不 将 变量 分 配 
到 寄存 器 中 ， 至 少 也 可 以 避免 多 余地 取 c 的 值 。 在 早期 典型 的 单 标量 SPARC 实 现 中 ， 执 行 图 1-4b 
中 的 代码 需要 10 个 时 钟 周期 ， 而 图 1-4c 中 的 代码 仅 需要 2 个 时 钟 周 期 。 


int a, b, c, d; 
c =a+ b; 
d=c+1; 


add ri,r2,r3 
add r3,1,r4 





a) b) c) 
图 1-4 a) 一 个 C 代 码 段 ，b) 生成 的 原始 SPARC 代 码 ，c) 优化 的 代码 


一 般 而 言 ， 最 重要 的 优化 是 与 循环 有 关 的 优化 〈 例 如 循环 不 变 计 算 外 提 、 简 化 或 消除 归纳 
变量 计算 )、 全 局 寄存 器 分 配 和 指令 调度 ， 所 有 这 些 都 在 第 12~20 章 进行 了 讨论 (同时 也 讨论 了 
许多 其 他 的 优化 技术 )。 

然而 ， 有 许多 优化 技术 的 作用 只 对 特定 的 程序 才 显示 出 来 ， 还 有 一 些 优 化 技术 的 作用 随 着 
程序 结构 和 细节 的 不 同 而 变化 。 

例如 ， 对 一 个 高 度 递归 的 程序 施行 尾 调用 优化 可 能 很 有 效果 ( 见 15.1 节 )， 这 种 优化 将 递 
归 转 换 为 循环 ， 再 经 过 循环 优化 就 提高 了 程序 的 性 能 。 另 一 方面 ， 对 于 一 个 循环 次 数 不 多 ， 而 


日 ”SPARC 汇 编 语言 指南 请 查阅 附录 A。 
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循环 中 的 基本 块 非常 大 的 程序 ， 循 环 分 布 〈 它 将 一 个 循环 分 裂 成 多 个 ， 每 个 新 的 循环 完成 原 循 
环 的 部 分 工作 ) 或 寄存 器 分 配 优化 可 能 非常 见效 ， 但 其 他 循环 优化 对 这 种 程序 可 能 见效 不 大 。 
类 似 地 ， 过 程 集成 或 内 联 ， 即 用 子 程序 体 置换 子 程序 调用 ， 不 但 减少 了 子 程序 调用 的 开销 ， 而 
且 使 过 程 内 优化 能 够 施加 于 子 程序 体 ， 从 而 得 到 在 没有 内 联 或 不 进行 《开销 很 大 的 ) 过 程 间 分 
析 和 优化 〈 见 第 19 章 ) 的 情况 下 不 可 能 得 到 的 显著 改善 。 但 是 ， 内 联通 常 增 大 了 程序 的 体积 ， 
这 可 能 对 程序 的 性 能 有 负 作 用 ， 即 增加 了 高 速 缓存 的 不 命中 率 。 因 此 ， 对 于 每 一 个 程序 ， 应 当 
评估 编译 器 提供 的 优化 选项 的 效果 ， 选 用 那些 能 够 实现 程序 最 佳 性 能 的 优化 。 

上 述 优 化 和 其 他 一 些 优化 能 使 程序 的 性 能 产生 很 大 的 变化 一 一 程序 的 执行 速度 常常 能 提高 
1~2 倍 ， 在 某 些 情况 下 甚至 更 高 。 

对 于 大 型 软件 项 目 ， 包 括 编译 器 ， 一 个 重要 的 设计 原则 是 用 较 小 的 、 功 能 不 同 的 模块 构成 
大 的 程序 ， 每 个 模块 尽量 简单 ， 以 方便 设计 、 编 码 、 理 解 和 维护 。 这 样 ， 用 不 进行 优化 的 编译 
器 生成 类 似 图 1-4b 的 局 部 代码 是 完全 可 能 的 ， 但 要 产生 图 1-4c 中 更 高 效 的 代码 就 必须 进行 优化 。 


1.4 优化 编译 器 的 结构 


一 个 能 生成 高 效 目标 代码 的 编译 器 包含 优化 器 组 件 。 优 化 编译 器 的 结构 主要 有 两 种 模式 ， 
如 图 1-5a 和 b 所 示 。。 在 图 1-5a 中 ， 源 代码 被 转换 成 类 似 LIR ( 见 4.6.3 节 ) 的 低级 中 间 代 码 ， 所 
有 优化 都 施加 于 这 种 低级 形式 的 中 间 人 代码， 我们 称 这 为 优化 的 低级 模式 (low-level model). 
在 图 1-5b 中 ， 源 代码 被 转换 成 类 似 MIR ( 见 4.6.1 节 ) 的 中 级 中 间 代 码 。 对 中 级 中 间 代 码 进行 的 
优化 主要 是 体系 结构 无 关 的 优化 ， 然 后 中 级 代码 被 转换 成 低级 代码 ， 再 进一步 优化 ， 主 要 是 体 
系 结构 相关 的 优化 ， 我 们 称 此 为 优化 的 混合 模式 (mixed model)。 在 两 种 模式 中 ， 优 化 器 的 各 
阶段 对 中 间 代 码 进 行 分 析 和 转换 ， 以 消除 无 用 代码 和 提高 任务 的 执行 速度 。 例 如 ， 优 化 器 可 能 
确认 循环 中 的 一 个 计算 在 每 一 个 迭代 中 都 产生 同样 的 结果 ， 因 此 将 这 个 计算 移 到 循环 外 就 可 提 
高 程序 的 执行 速度 。 在 混合 模式 中 ， 由 所 谓 的 后 遍 (postpass) 优化 器 来 执行 低级 优化 ， 例 如 
利用 目标 机 特有 的 指令 和 寻 址 模式 ， 而 在 低级 模式 中 这 是 由 单一 的 优化 器 来 完成 的 。 

混合 模式 的 优化 器 有 可 能 能 更 好 地 适应 新 的 体系 结构 ， 且 编译 效率 可 能 更 高 。 而 低级 模式 的 
优化 器 可 能 会 难以 移植 到 另 一 种 体系 结构 ， 除 非 第 二 种 体系 结构 与 第 一 种 非常 相似 ， 例 如 ， 第 二 
种 是 第 一 种 向 上 兼容 的 扩展 。 选 择 混 合 模式 还 是 低级 模式 主要 取决 于 投资 和 开发 所 关注 的 重点 。 

采用 混合 模式 的 编译 器 有 Sun 微 系统 公司 SPARC 上 的 编译 器 ( 见 21.1 节 )、 数 字 设 备 公 司 
(DEC) 支持 Alipha 的 编译 器 〈( 见 21.3 节 )、Intel 支 持 386 体 系 结构 系列 的 编译 器 《〈 见 21.4 节 ) 和 
Silicon Graphics 支 持 MIPS 的 编译 器 。 采 用 低级 模式 的 编译 器 有 IBM 支 持 POWER 和 了 PowerPC 的 
编译 器 ( 见 21.2 节 )， 以 及 Hewlett-Packard 支 持 PA-RISC 的 编译 器 。 

低级 模式 能 较 好 地 避免 优化 顺序 产生 的 问题 ， 能 使 整个 优化 器 都 看 到 所 有 的 地 址 计算 。 根 
据 这 些 还 有 其 他 一 些 理由 ， 我 们 建议 在 从 头 开始 构建 一 个 优化 器 时 就 采用 低级 模式 ， 除 非 日 后 
希望 把 它 移植 到 另 一 种 显著 不 同 的 体系 结构 上 。 但 无 论 怎样 ， 本 书 中 描述 的 优化 既 可 以 运用 于 
中 级 中 间 人 代码， 也 可 如 同 运用 于 中 级 中 间 代 码 一 样 运用 于 低级 中 间 人 代码。 经 过 简单 的 改编 ， 这 
些 优化 就 能 适用 于 低级 中 间 代 码 。 

如 前 面 所 述 ，Sun 和 Hewlett-Packard 的 编译 器 代表 了 与 低级 模式 相反 的 做 法 。Sun 的 全 局 优 
化 器 最 初 是 为 基于 Motorola MC68010 微 处 理 器 的 Sun-2 系 列 工 作 站 的 Fortran 77 编 译 器 编写 的 ， 
当时 就 确信 它 将 要 移植 到 未 来 的 体系 结构 上 。 后 来 它 被 移植 到 使 用 相同 中 间 表 示 的 其 他 几 个 编 


O 也 可 将 词法 分 析 、 语 法 分 析 、 语 义 分 析 和 其 他 转换 或 中 间 代 码 生成 放 在 一 个 步骤 中 。 
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译 器 中 ， 然 后 又 被 移植 到 十 分 类 似 的 基于 MC68020 微 处 理 器 的 Sun-3 系 列 ， 最 近 又 移植 到 了 
SPARC 和 SPARC-V9。 虽然 花费 了 相当 大 的 投资 来 使 该 优化 器 能 对 SPARC 进 行 非常 有 效 的 优化 ， 
特别 是 将 代码 生成 前 的 一 些 优化 转移 到 代码 生成 后 进行 ， 但 该 优化 器 针对 新 的 体系 结构 的 移植 
大 部 分 还 是 比较 容易 的 。 









语法 分 析 树 
诸 法 分 析 树 
中 间 代 码 生 成 器 

中 级 中 间 代 码 


中 级 中 间 代 码 


低级 中 间 代 码 






可 重 定 位 目标 模块 

或 可 运行 机 器 代码 
可 重 定位 目标 模块 或 
可 运行 机 器 代码 

a) b) 


图 1-5 优化 编译 器 的 两 种 高 层 结构 : a) 低级 模式 ， 所 有 优化 都 在 低级 中 间 代码 上 完成 ，b) 混合 模式 ， 优 化 
分 成 两 个 阶段 ， 一 个 阶段 的 优化 在 中 级 中 间 代 码 上 进行 ， 另 一 个 阶段 的 优化 在 低级 中 间 代 码 上 进行 


另 一 方面 ，Hewlett-Packard 支 持 PA-RISC 的 全 局 优化 器 是 一 项 大 投资 的 一 部 分 ， 这 项 投资 
的 目的 是 : 围绕 一 种 新 的 体系 结构 统一 该 公司 的 大 多 数 计算 机 产品 。 采 用 单一 的 优化 器 和 统一 
各 方 力 量 的 好 处 使 得 公司 有 充分 的 信心 专门 为 PA-RISC 设 计 一 个 全 局 优化 器 。 

除非 一 个 体系 结构 只 准备 用 于 特殊 的 用 途 ， 如 作为 嵌入 式 处 理 器 ， 否 则 不 能 只 支持 一 种 程 
序 设计 语言 。 这 使 得 人 们 希望 一 种 体系 结构 能 够 尽 可 能 地 共享 多 种 编译 器 的 组 件 ， 既 减少 编写 
和 维护 编译 器 的 工作 量 ， 又 能 从 改善 被 编译 代码 性 能 方面 获得 最 广泛 的 效益 。 在 这 点 上 ， 无 论 
是 混合 模式 还 是 低级 模式 优化 都 是 相同 的 。 因 此 ， 第 21 章 中 讨论 的 所 有 实际 的 编译 器 都 是 特定 
体系 结构 的 编译 器 套件 中 的 成 员 。 这 些 编译 器 套件 中 的 各 个 编译 器 共享 许多 组 件 ， 包 括 代码 生 
成 器 、 优 化 器 、 汇 编 器 以 及 其 他 可 能 的 组 件 ， 但 它们 具有 不 同 的 前 端 来 处 理 不 同 语言 的 词法 、 
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语法 和 静态 语义 。 


另 一 种 情况 是 一 个 软件 厂家 为 多 种 体系 结构 提供 同一 种 语言 的 编译 器 。 这 时 我 们 就 能 看 到 ， 
这 些 编译 器 使 用 相同 的 前 端 ， 优 化 器 组 件 通常 也 是 相同 的 ， 但 代码 生成 器 是 不 同 的 ， 也 可 能 还 
有 另外 的 优化 阶段 来 处 理 每 种 体系 结构 的 特征 。 在 这 种 情况 下 采用 混合 模式 优化 更 为 合适 。 代 
码 生 成 器 的 结构 常常 是 相同 的 ， 基 结构 采用 一 种 既 适 合 于 源 语言 ， 或 更 多 地 适合 于 相同 中 间 代 


码 的 方式 ， 而 与 具体 的 目标 机 无 关 ， 不 同 
的 只 是 为 每 一 种 目标 机 生成 的 指令 不 同 。 

还 有 一 种 选择 是 采用 预 处 理 器 
(preprocessor) 将 一 种 语言 编写 的 程序 转 
换 为 另 一 种 语言 的 等 价 程序 ， 然 后 进行 编 
译 。C++ 的 早期 实现 就 是 用 一 个 称 为 cfront 
的 程序 将 C++ 代码 转换 为 C 代 码 ， 在 这 个 
过 程 中 (除了 进行 其 他 转换 外 ) 进行 一 种 
称 为 名 字 重 塑 (name mangling) 的 转换 ， 将 
易 读 的 C++ 标识 符 转 换 为 不 可 读 、 但 能 编 
译 的 C 标 识 符 。 另 一 个 例子 是 用 预 处 理 器 
将 Fortran 程 序 转换 为 另 一 种 能 更 好 地 发 挥 
向 量 或 多 处 理 机 系统 性 能 的 程序 。 第 三 个 
例子 是 将 一 个 还 没有 研制 成 功 的 处 理 器 的 
目标 代码 转换 为 一 个 已 有 机 器 的 代码 ， 以 
实现 对 预期 系统 的 模拟 。 

一 个 在 有 关 优 化 器 结构 和 它 在 编译 器 
或 编译 器 套件 中 的 位 置 的 讨论 中 被 忽略 的 
问题 是 : 有 些 优化 ， 特 别 是 在 20.4 节 中 将 讨 
论 的 数据 高 速 缓存 的 优化 ， 施 加 于 源 语 言 
或 高 级 中 间 语 言 (例如 HIR ， 见 4.6.2 节 ) 时 
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VEO Hr BEC 
他 高 级 中 间 代 码 


高 级 中 间 代 码 
中 级 或 低级 中 间 代 码 


图 1-6 增加 数据 高 速 缓存 优化 至 优化 编译 器 中 。 最 后 的 
箭头 在 图 1-5a 低 级 模式 中 指向 转换 器 ， 在 图 1-5b 
混合 模式 中 指向 中 间 代 码 生成 器 


更 为 有 效 。 这 种 优化 可 以 作为 优化 过 程 的 第 一 步 ， 如 图 1-6 所 示 ， 图 中 最 后 的 箭头 在 低级 模式 中 
指向 转换 器 ， 在 混合 模式 中 指向 中 间 代 码 生 成 器 。IBM 支 持 POWER 和 PowerPC 的 编译 器 使 用 的 是 
另 一 种 方法 ， 它 首先 将 源 程序 转换 为 一 种 低级 代码 〈 称 为 XIL)， 然 后 再 由 它 产 生 一 种 高 级 表示 
(AYL) 来 进行 数据 高 速 缓存 优化 。 经 过 数据 高 速 缓存 优化 后 ，YIL 代 码 再 转换 回 到 XIL 代 码 。 


1.5 激进 型 优化 编译 器 中 各 种 优化 的 位 置 


上 一 节 讨 论 了 优化 在 整个 编译 过 程 中 的 位 置 。 在 以 后 关于 优化 的 各 章 的 小 结 中 ， 都 有 一 个 
类 似 于 图 1-7 的 图 ， 它 说 明了 本 书 中 讨论 的 几乎 所 有 优化 在 激进 型 优化 编译 器 中 的 一 个 比较 合 
理 的 执行 顺序 。 注 意 ， 用 “激进 型 ”这 个 词 是 因为 我 们 假定 其 目的 是 在 不 破坏 正确 性 的 前 提 下 
尽 可 能 地 优化 性 能 。 在 每 一 章 相应 的 图 中 ， 所 讨论 的 优化 都 用 黑体 字 标示 出 来 。 另 外 要 说 明 的 
是 ， 这 些 图 中 只 包含 了 各 种 优化 ， 没 有 包含 编译 的 其 他 阶段 。 
图 1-7 中 左边 的 字母 说 明 它 右边 的 优化 通常 施加 于 何 种 类 型 的 代码 ， 如 下 所 述 
tA ”这 些 优化 通常 施加 于 源 代码 ， 或 施加 于 基本 按 其 源 代码 形式 保留 了 循环 结构 和 顺序 、 
数组 访问 的 高 级 中 间 代 码 。 在 执行 这 类 优化 的 编译 器 中 ， 这 些 优化 通常 在 编译 过 程 的 前 
期 进行 ， 因 为 随 着 编译 过 程 从 上 一 遍 进 行 到 下 一 遍 ， 代 码 的 层次 也 趋 于 越 来 越 低 。 
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图 1-7 各 种 优化 的 顺序 
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“B,C 这 些 优化 通常 施加 于 中 级 或 低级 中 间 代 码 ， 具 体 取决 于 所 采用 的 是 混合 模式 还 是 低 

级 模式 。 

eD 这 些 优化 几乎 总 是 施加 于 低级 形式 的 代码 一 一 这 种 形式 可 能 在 很 大 程度 上 是 机 器 相关 

的 (例如 一 种 结构 化 的 汇编 语言 )， 或 者 稍微 通用 一 些 ， 像 本 书 中 的 LIR 代 码 一 一 因为 这 

些 优 化 要 求 地 址 被 转换 成 “ 基 址 寄存 器 + 偏 移 ”的 形式 〈 或 类 似 形式 ， 取 决 于 目标 处 理 

器 提供 的 有 效 寻 址 模式 )， 也 因为 这 些 优化 中 有 一 些 需要 有 低级 控制 流 代码 。 

E. 这 些 优化 在 链接 时 进行 ， 所 以 它们 施加 于 可 重 定 位 的 目标 代码 。 这 一 方面 一 个 令 人 感 

兴趣 的 项 目 是 Srivastava 和 Wall 的 OM 系统 ， 它 是 一 种 在 链接 时 进行 所 有 优化 的 编译 系统 ， 

也 是 这 一 领域 中 的 一 个 开创 性 研究 。 

图 1-7 中 的 方 框 除了 表示 相应 优化 适合 的 代码 层次 外 ， 还 表示 了 各 种 优化 之 间 的 整体 流程 。 
例如 ， 常 数 折 登 和 代数 化 简 所 在 的 方 框 由 一 根 虚 线 箭头 与 其 他 优化 阶段 相连 ， 因 为 最 好 是 将 它 
们 构造 为 子 程序 ， 以 便 可 以 在 任何 需要 的 地 方 调用 。 

从 C1 到 C2 或 C3 的 分 支 表 示 系 统 在 进行 基本 相同 的 优化 〈 即 ， 在 不 改变 程序 语义 的 情况 下 ， 
将 计算 移 到 执行 次 数 较 少 的 位 置 ) 时 对 不 同方 法 的 选择 。 这 个 分 支 也 表示 了 对 优化 所 使 用 的 不 
同 数据 流 分 析 方法 的 选择 。 

方 框 内 的 详细 流程 比方 框 间 的 流程 更 为 自由 。 例 如 ， 方 框 B 中 ， 在 稀有 条 件 常 数 传播 之 后 
进行 聚合 量 的 标量 替代 使 系统 能 决定 标量 替代 是 否 值得 进行 ， 而 在 常数 传播 之 前 进行 标量 替代 
将 使 得 常数 传播 更 有 效 。 前 一 种 情况 的 例子 如 图 1-8a 所 示 ， 后 一 种 如 图 1-8b 所 示 。 在 a) 中 ， 通 
过 将 赋 给 a 的 值 1 传播 给 测试 a=1 ， 可 以 确定 基本 块 B1 将 取 分 支 Y。 同 样 地 ， 聚 合 量 的 标量 替代 
导致 第 二 遍 常数 传播 能 确定 出 基本 块 B4 取 分 支 Y。 在 b) 中 ， 聚 合 量 的 标量 替代 使 得 稀有 条 件 的 
常数 传播 确定 了 基本 块 B1 取 分 支 Y。 








B2 





. b) 
图 1-8 a) 在 常数 传播 之 后 和 b) 在 常数 传播 之 前 进行 聚合 量 标量 替代 的 效果 的 例子 


类 似 地 ， 全 局 值 编号 、 全 局 和 局 部 的 复写 传播 ， 以 及 稀有 条 件 常数 传播 的 某 种 顺序 可 能 对 
某 些 程序 很 有 效 ， 而 另 一 种 顺序 对 其 他 一 些 程序 更 有 效 。 

进一步 研究 图 1-7 后 ， 我 们 建议 进行 3 次 稀有 条 件 常数 传播 和 死 代码 删除 ， 做 2 次 指令 调度 。 
这 样 做 的 理由 在 每 种 情况 下 赂 有 不 同 : 

1. 稀有 条 件 常数 传播 发 现 每 次 使 用 时 其 值 都 是 常数 的 操作 数 。 在 进行 过 程 间 常 数 传播 之 前 
进行 稀有 条 件 常数 传播 ， 有 利于 将 其 值 为 常数 的 参数 传送 给 其 他 过 程 ， 而 过 程 间 常 数 又 有 利于 
发 现 更 多 的 过 程 内 的 常数 。 
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2. 我 们 建议 重复 进行 死 代码 消除 ， 因 为 有 几 种 优化 和 几 组 优化 经 常 产生 死 代码 ， 应 该 尽 可 
能 及 时 地 消除 这 类 代码 ， 以 便 适 当地 减少 其 他 编译 阶段 一 一 如 优化 或 其 他 任务 ， 例 如 将 代码 转 
换 为 较 低 层次 的 形式 一 一 所 要 处 理 的 代码 量 。 

3. 建议 在 寄存 器 分 配 之 前 和 之 后 都 进行 指令 调度 ， 因 为 第 一 遍 指令 调度 可 以 利用 代码 中 使 
用 了 很 多 符号 寄存 器 (而 不 是 只 有 几 个 实际 寄存 器 ) 的 相对 自由 度 。 而 第 二 遍 指 令 调 度 可 以 处 
理 可 能 被 寄存 器 分 配 插 入 的 寄存 器 溢出 和 恢复 代码 。 

最 后 要 强调 的 是 ， 实 现 图 1-7 的 所 有 优化 功能 ， 将 构成 一 个 对 于 单 处 理 机 系统 能 生成 高 性 
能 的 代码 ， 同 时 又 是 非常 庞大 的 激进 型 编译 器 ， 但 这 还 完全 没有 涉及 支持 并 行 或 向 量 计算 机 的 
有 关 问 题 ， 如 代码 重组 等 。 


1.6 本 书 各 章 的 阅读 流程 


读者 可 以 根据 自己 的 知识 基础 、 需 要 和 其 他 因素 ， 用 不 同 的 方法 来 阅读 这 本 书 。 图 1-9 给 
出 了 几 种 可 选 的 阅读 本 书 的 流程 ， 如 下 所 述 。 

1. 首先 ， 我 们 建议 读者 阅读 本 章 和 第 2 章 。 它 们 对 本 书 
其 他 部 分 作 了 简要 的 介绍 ， 定 义 了 编写 本 书 所 有 算法 的 
ICAN 语 言 。 

2. 如 果 读 者 想 阅 读 全 书 ， 我 们 建议 按 顺 序 阅 读 后 续 的 
各 章 。 虽 然 也 可 以 按 其 他 次 序 来 读 ， 但 这 是 我 们 写作 本 书 
各 章 时 考虑 的 阅读 次 序 。 

3. 如 果 读 者 需要 更 多 关于 编译 器 设计 和 实现 基础 方面 
较 先 进 的 信息 ， 但 可 以 忽略 其 他 方面 ， 我 们 建议 继续 阅读 
第 3 章 到 第 6 章 。 

4. 如 果 读 者 主要 关注 优化 ， 那 么 你 的 兴趣 是 针对 存储 
器 层次 结构 进行 的 数据 相关 的 优化 ， 同 时 还 有 其 他 类 型 的 
优化 吗 ? 

a) 如 果 是 ， 继 续 阅 读 第 7 章 到 第 10 章 ， 接 着 阅读 第 11 章 
到 第 18 章 ， 以 及 第 20 章 。 

b) 如 果 不 是 ， 继 续 阅 读 第 7 章 到 第 10 章 ， 接 着 阅读 第 11 
章 到 第 18 章 。 

5. 如 果 读 者 对 过 程 间 优 化 感 兴趣 ， 请 阅读 第 19 章 ， 它 赛 
括 了 过 程 间 的 控制 流 、 数 据 流 、 别 名 和 常数 传播 等 分 析 ， 以 
及 其 他 儿 种 形式 的 过 程 间 优 化 ， 特 别 是 过 程 间 寄 存 器 分 配 。 

6. 接着 阅读 第 21 章 ， 它 给 出 了 Digital Equipment 图 1-9 本 书 各 章 的 阅读 流程 
Corporation、IBM、Intel 和 Sun Microsystems 的 4 种 产品 化 编译 器 套件 的 描述 ， 给 出 了 关于 其 他 
中 间 代 码 的 设计 、 优 化 的 选择 和 进行 优化 的 顺序 ， 以 及 用 于 实现 优化 和 编译 过 程 中 其 他 一 些 任 
务 的 技术 的 例子 。 当 阅读 其 他 章 时 ， 你 也 可 能 会 希望 参考 第 21 章 中 的 这 些 例子 。 

最 后 ，3 个 附录 给 出 了 本 书 的 支撑 材料 ， 包 括 本 书 中 使 用 的 汇编 语言 、 数 据 结构 的 具体 表 
示 ， 以 及 可 通过 ftp 和 万 维 网 访问 的 编译 器 项 目的 资源 。 


1.7 本 书 没有 涉及 的 相关 主题 
本 书 原本 还 可 以 覆盖 其 他 一 系列 的 主题 ， 但 我 们 没有 这 样 做 。 原 因 是 多 方面 的 ， 例 如 不 能 
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增加 本 来 就 相当 大 了 的 本 书 的 篇 幅 ， 有 些 问 题 只 是 与 本 书 的 主题 稍微 沾 点 边 ， 或 在 其 他 书 中 已 
经 很 好 地 讨论 过 (1.11 节 给 出 的 参考 文献 可 作为 研究 这 些 问题 的 入 门 材料 )。 本 书 没 有 涉及 的 
相关 论题 是 : 

1. 优化 和 调试 的 相互 作用 (interaction of optimization and debugging) 是 从 1980 年 左右 就 
开始 研究 的 一 个 问题 。 前 期 研究 的 进展 一 直 相 当 缓 慢 ， 但 近期 有 了 令 人 印象 深刻 的 改变 。Adl- 
Tabatabai 和 Gross 及 Wismiiller 的 工作 为 这 方面 的 入 门 提供 了 极 好 文献 。 

2. 并 行 化 和 向 量化 (parallelization and vectorization) 以 及 它们 与 标量 优化 的 关系 在 本 书 
中 没有 讨论 ， 因 为 讨论 这 些 问题 需要 更 大 的 篇 幅 ， 同 时 关于 并 行 化 和 向 量化 已 经 有 了 几 本 很 好 
的 书 ， 例 如 Wolfe、Banerjee、Zima 和 Chapman 的 书 。 然 而 ， 在 第 9 章 讨 论 的 依赖 关系 分 析 和 在 
20.4.2 节 讨论 的 循环 转换 技术 是 并 行 化 和 向 量化 的 基础 。 

3. 剖面 分 析 反 馈 式 编译 过 程 (profiling feedback to the compilation process) 是 一 种 非常 重 
要 的 编译 方式 ， 本 书 也 几 次 涉及 了 这 个 问题 。Ball 和 Larus 的 著作 ， 以 及 Wall 的 著作 对 这 些 技术 、 
剖面 分 析 器 产生 的 结果 给 出 了 有 关 解 释 ， 并 对 它们 在 编译 器 中 的 应 用 作 了 很 好 的 介绍 ， 同 时 也 
给 出 了 之 前 有 关 工 作 的 参考 文献 。 


1.8 例子 中 所 用 的 目标 机 


本 书 中 大 多 数 员 标 机 代码 的 例子 是 用 SPARC 汇 编 语 言 编写 的 。 我 们 使 用 了 一 个 没有 寄存 器 
窗口 的 简化 版 本 。 偶 尔 也 有 SPARC-V9 的 例子 或 其 他 汇编 语言 的 例子 ， 例 如 POWER 或 Intei 386 
体系 结构 系列 的 汇编 语言 等 。 为 使 读者 理解 本 书 的 例子 ， 附 录 A 对 本 书 涉及 的 所 有 汇编 语言 
作 了 相当 好 的 找 述 。 


1.9 数 的 表示 与 数据 的 大 小 


术语 字 节 (byte) MF (word) 通常 用 于 表示 一 个 字符 的 大 小 和 特定 系统 中 一 个 寄存 器 数 
据 的 大 小 。 我 们 主要 考虑 8 位 为 一 个 字 节 的 32 表 1-1 数据 类 型 的 大 小 
位 系统 ， 将 64 位 系统 作为 32 位 系统 的 扩展 ， 因 


此 统一 使 用 表 1-1 所 示 的 术语 来 表示 存储 大 小 。 “ “ee 
本 书 中 几乎 所 有 的 数 都 是 十 进 制 表示 法 并 i M 
按 通常 的 方式 来 书写 。 我 们 偶尔 也 使 用 十 六 进 M 3 
制 表示 。 一 个 十 六 进 制 的 整数 写法 为 0x 之 后 跟 双 字 64 
着 一 串 十 六 进 制 数字 (0-9, a-fRA-F), H 四 字 128 


总 是 解释 为 无 符号 数 (除非 特别 地 说 明了 表示 
一 个 有 符号 的 值 )， 其 长 度 是 从 最 左边 的 第 一 个 “1” 数 到 最 后 一 位 的 位 数 。 例 如 ，0x3a 是 十 
进 制 数 58 的 6 位 表示 ，0xfffffffe 是 十 进 制 数 4294967294=2”-2 的 32 位 表示 。 


1.10 小 结 


本 章 集中 回顾 了 编译 器 的 一 些 基 本 问题 ， 为 进入 后 续 的 章节 打下 基础 。 

在 讨论 了 第 3 章 到 第 6 章 包含 的 内 容 之 后 一 一 这 些 内 容 通 常 认为 是 基本 问题 中 的 一 些 高 级 方 
面 ， 我 们 描述 了 优化 的 重要 性 ， 优 化 编译 器 的 结构 ， 包 括 混合 和 低级 模式 ， 以 及 在 激进 型 优化 
编译 器 中 各 种 优化 的 组 织 。 

然后 我 们 讨论 了 本 书 各 章 可 能 的 阅读 流程 ， 在 结束 本 章 之 前 以 两 小 节 的 篇 幅 提 及 了 本 书 没 
有 涉及 的 相关 论题 ， 以 及 例子 中 使 用 的 目标 机 ， 数 的 表示 和 用 于 表示 各 种 数据 大 小 的 名 称 。 





PENIS 


从 本 章 应 当 学 到 的 5 点 主要 启示 是 : 

1. 在 通常 认为 是 编译 器 构造 的 基本 问题 中 ， 有 一 些 在 设计 和 构建 能 实际 使 用 的 编译 器 时 需 
要 认真 考虑 的 高 级 问题 ， 例 如 作用 域 的 导入 和 导出 的 处 理 、 中 间 语 言 的 设计 或 选择 、 位 置 无 关 
代码 和 共享 代码 对 象 等 ; 

2. 组 织 整个 编译 器 和 编译 器 中 的 优化 组 件 存在 着 若干 种 合理 的 方式 ; 

3. 划分 优化 过 程 有 2 种 主要 的 模式 (混合 的 和 低级 的 )， 通 常 采用 低级 模式 更 好 ， 但 根据 特 
定 的 编译 器 和 优化 项 目 情况 的 不 同 ， 可 以 有 不 同 的 选择 ; 

4. 新 的 优化 技术 和 对 传统 方法 的 改进 不 断 出 现 ; 

5. 还 有 一 些 重要 论题 需要 仔细 研究 ， 如 优化 代码 的 调试 、 标量 优化 与 并 行 化 和 向 量化 的 集 
成 ,但 这 些 超出 了 本 书 的 范围 。 


1.11 进一步 阅读 


关于 程序 设计 语言 的 历史 有 2 本 非常 优秀 的 著作 ， 即 [Wexe81] 和 [BerG95]， 但 关于 编译 器 
历史 的 出 版 物 极 少 。Knuth 在 [Knut62] 一 书 中 给 出 了 编译 器 开发 早期 的 历史 ， 一 些 近 期 的 材料 
则 包含 在 上 面 提 过 的 2 本 著作 中 ， 即 [Wexe811 和 [BerG951。 

在 近期 关于 编译 器 构造 的 著作 中 ， 较 好 的 有 [AhoS861] 和 [FisL91] 。 

在 将 C++ 程序 转换 为 C 程 序 的 过 程 中 所 使 用 的 名 字 重 塑 技术 ，[Stro88] 中 将 它 描述 为 “函数 
名 编码 方案 ”。 

[GhoM86] 描 述 了 Sun 的 全 局 优化 器 的 起 源 、 结 构 和 功能 ， 而 [JohM86] 描 述 了 Hewlett- 
Packard 支 持 PA-RISC 的 全 局 优化 器 的 结构 和 性 能 。 

[SriW93] 撕 述 了 Srivastava 和 Wall 的 OM 系统 。 

关于 Adl-Tabatabai 和 Gross 在 优化 和 调试 方面 的 工作 的 入 门 参考 文献 是 [AdlG93]。 
Wismiiller 的 [Wism94] 是 关于 这 个 领域 另 一 分 支 工 作 的 参考 文献 。 

关于 并 行 编译 系统 的 著作 有 [Bane88]、[Bane93]、[Bane94]、[Wolf96] 和 [ZimC91]。 

Ball 和 Larus 关 于 剂 面 分 析 的 工作 包含 在 [BalL92] 中 。Wall 在 [Wall91] 中 考虑 了 剖面 分 析 反 
馈 重 编译 的 作用 和 对 性 能 的 影响 。 


1.12 练习 


1.1 确定 和 描述 你 的 计算 环境 中 使 用 的 一 个 编译 器 的 总 体 结构 和 中 间 代 码 。 该 编译 器 
的 哪些 部 分 是 在 用 户 的 控制 下 有 选择 地 执行 的 ? 
RSCH 1.2 从 [GhoM86]、[JohM86]、[SriW93]、[AdlG93]、fWism94]、[BalL92] 和 fWall91] 中 
选取 一 篇 论文 ， 写 一 个 3~5 页 的 大 岗 ， 说 明 论 文 涉及 的 问题 、 研 究 成 果 或 结论 ， 以 
及 论文 中 对 这 些 成 果 或 结论 给 出 的 论据 。 





es 非 形式 化 编译 算法 表示 


本 章 讨 论 非 形式 化 编译 算法 表示 ， 即 ICAN (Informal Compiler Algorithm Notation), ， 本 书 
中 用 它 来 表示 编译 算法 。 我 们 首先 讨论 扩展 的 巴 科斯 -诺尔 范式 ， 它 用 于 表示 ICAN 的 语法 和 
下 一 章 讨论 的 中 间 语 言 。 随 后 简要 介绍 ICAN 语 言 ， 以 及 它 与 其 他 常见 程序 设计 语言 的 关系 ， 
非 形式 化 地 概述 该 语言 的 全 貌 ， 给 出 ICAN 的 形式 化 语法 描述 ， 并 讲述 其 语义 的 非 形式 化 英语 
描述 。 虽 然 非 形式 化 的 概述 对 于 读者 理解 ICAN 程 序 已 经 足够 ， 但 本 书 仍 给 出 了 ICAN 完 整 的 定 
义 ， 以 应 对 概述 中 没有 涉及 的 情况 。 


2.1 扩展 的 巴 科斯 -诺尔 范式 语法 表示 


为 了 描述 程序 设计 语言 的 语法 ， 我 们 采用 巴 科 斯 -诺尔 范式 的 一 种 称 为 “扩展 的 巴 科 斯 - 
诺尔 范式 ”的 版 本 ， 简 称 XBNF。 在 XBNF 中 ， 终 结 符 用 印刷 字体 (例如 ,，“type” 和 “1[”)， 
非 终结 符 用 斜体 且 第 一 个 字符 为 大 写字 母 ,， 散布 在 其 中 的 其 他 大 写字 母 用 于 改善 可 读 性 (例如 ， 
用 “ProgUnit”， 而 不 用 “Progunit” )。 产 生 式 由 非 终结 符 后 随 一 个 长 右 第 头 《“ 一 ”) 以 及 非 终 
结 符 、 终 结 符 和 运算 符 的 序列 组 成 。 符 号 “e ”ee 表示 空 字符 串 。 


表 2-1 扩展 的 巴 科 斯 -诺尔 范式 语法 描述 中 使 用 的 运算 符 


符 s a X 
| 分 隔 可 选项 
{和 } 分 组 
[和 ] DE: 
* 零 次 或 多 次 重复 
* 至 少 一 次 以 上 重复 
ba 左 操作 数 重复 至 少 一 次 以 上 ， 且 重复 之 问 用 右 操作 数 分 隔 


运算 符 列 在 表 2-1 中 。 上 标 运 算 符 “*”"、“+” 以 及 运算 符 “ mm“ ”都 具有 比 连接 运算 符 更 高 的 
优先 级 ， 连 接 运算 符 则 具有 比 选择 运算 符 “l|” 更 高 的 优先 级 。 花 括号 “{”...“}” 和 和 方 括号 
“[”. . .“]” 都 用 作 分 组 运算 符 ， 但 方 括 号 还 表示 括号 内 的 内 容 是 可 选 的 。 注 意 ，XBNF 运 算 符 采 
用 正文 所 用 的 字体 书写 。 当 同样 的 符号 以 印刷 字体 出 现时 ， 它 们 代表 被 定义 语言 的 终结 符 。 因 此 ， 

KnittingInst > (( knit! purl } Integer| casto££Y 
表示 KnittingInst 是 由 三 种 可 能 的 选择 ( 即 ，knit 后 随 一 个 整数 ，pur1 后 随 一 个 整数 ， 或 
castoff) 中 的 任意 一 至 多 个 对 象 组 成 的 序列 ; 而 

Wall ^ brick pamortar | cementblock pamortar 
表示 Wail 是 一 个 由 brick 组 成 且 被 nortar 分 隔 【 或 更 恰当 地 说 是 由 mortaz 连 接 ) 的 序列 ， 
或 者 是 一 个 由 cementblock 组 成 的 序列 ，cementblock 之 间 用 mortar 分 隔 。 

作为 一 个 更 合适 的 例子 ， 考 虑 下 面 的 产生 式 ， 

ArrayTypeExpr ^ array [ArrayBounds] of TypeExpr 

ArrayBounds > ([Expr]--- [Expr]) m<, 
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第 一 行 描述 hrrayTypeExpr 的 组 成 是 : 一 个 关键 字 array 之 后 跟着 一 个 左 方 括号 “[”, 其 后 跟着 
一 个 与 4rrayBounds 语 法 相符 的 成 分 ,一 个 右 方 括 号 ， 再 跟 关 键 字 of ， 最 后 是 一 个 与 语法 
Typegxpr 相 符 的 成 分 。 第 二 行 描述 4rrayBorvnrds 是 由 逗号 “,” 分 中 的 、 一 个 以 上 的 三 元 组 组 成 
的 序列 ， 其 中 三 元 组 的 形式 为 : 一 个 可 选 的 Expr， 其 后 接着 “..”, 最 后 是 一 个 可 选 的 Expr。 下 
面 是 4rrayTypeExpr 的 例子 : 

array [--] of integer 

array [1--10] of real 


array [1:-2,1:-2) of real 
array [m--n+2] of boolean 


2.2 ICAN 简 介 


本 书 用 一 种 非 形式 化 ?但 相对 清晰 的 表示 方法 来 书写 算法 ， 这 种 表示 方法 称 为 非 形式 化 编 
译 算法 表示 ， 简 称 为 ICAN (Informal Compiler Algorithm Notation )。 它 汲取 了 几 种 程序 设计 语 
言 的 特点 ， 如 C、Pascal 和 Modula - 2， 并 扩充 了 诸如 集合 、 序 列 、 函 数 、 数 组 ， 以 及 编译 专用 
的 一 些 类 型 。 图 2-1 和 图 2-2 给 出 了 两 个 ICAN 代 码 的 例子 。 


Struc: Node —> set of Node 


procedure Example 1(N,r) 
N: in set of Node 
r: in Node 
begin 
change := true: boolean 
D, t: set of Node 
n, p: Node 
Struc(r) := {r} . 
for each n € N (n * r) do 
Struc(n) := N 
od 
while change do 


change := false 
for each n € N - ír) do 
t := N 
for each p € Pred[n] do 
t n= Struc(p) 


od 
D := {n} ut 
if D * Struc(n) then 
change := true; Struc(n) := D 
fi 





图 2-1 ICAN 全 局 声明 和 过 程 之 例 〈 左 列 的 行 号 不 是 代码 的 一 部 分 ) 
ICAN 的 语法 设计 成 每 一 种 类 型 的 复合 语句 都 以 一 个 终止 分 界 符 终止 ， 例 如 “fi ”终止 一 个 
if 语句 。 这 样 ， 在 语句 之 间 就 不 再 需要 另外 的 分 隔 符 。 但 是 ， 作 为 改善 可 读 性 的 一 个 约定 ， 当 两 


O ICAN 的 非 形 式 性 的 一 种 度量 是 该 语言 的 许多 被 认为 是 错误 的 地 方 ， 例 如 用 一 个 超过 数组 维 界 的 下 标 访问 一 
个 数组 ， 其 作用 是 不 确定 的 。 
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条 以 上 的 语句 出 现在 同一 行 时 ， 我 们 用 分 号 来 分 隔 它们 《如 图 2-1 中 第 23 行 )。 类 伏地 ， 如 果 一 
个 定义 、 声 明 或 语句 超过 了 一 行 ， 续 行 采用 缩 进 格式 书写 (如 图 2-2 中 第 1 行 和 第 2、4 和 5 行 )。 
注释 以 分 界 符 “11” 开 始 直至 该 行 结尾 《如 图 2-1 中 第 27 行 )。 
词法 上 ，ICAN 程 序 是 ASCII 字 符 组 成 的 序列 。 制 表 符 、 注 释 、 行 结束 符 以 及 一 至 多 个 空格 
符 组 成 的 序列 均 称 为 “空白 符 ”。 每 一 个 空白 符 都 可 以 转换 为 单个 空格 符 而 不 影响 程序 的 含义 。 
关键 字 前 后 必须 跟 有 空白 符 ， 但 运算 符 不 必 如 此 。 


webrecord = record {defs: set of Def, 
uses: set of Use} 


procedure Example 2(nwebs,Symreg,nregs, 
Edges) returns boolean 
nwebs: inout integer 
nregs: in integer 
Symreg: out array [1--nwebs] of webrecord 
Edges: out set of (integer x integer) 
begin 
s1, s2, r1, r2: integer 
for ri := 1 to nregs (odd(r1)) do 
Symreg(nwebstri] := nil 


1 to nregs do 
for r2 :- 1 to nregs do 
if ri * r2 then 
Edges v= {<nwebstr1 ,nwebst+r2>} 


fi 
od 
od 
for s1 := 1 to nwebs do 
repeat 
case s1 of 
s2 := si * nregs 
s2 := si-i 
s2 := nregs - nwebs 
return false 
default: s2 := 0 
esac 
until s2 = 0 
for r2 := 1 to nregs do 
if Interfere(Symregísi),r2) then 
goto L1 
fi 
od 


nwebs += nregs 
return true 
end || Example.2 





图 2-2 ICAN 代 码 之 例 2 ( 左 列 的 行 号 不 是 代码 的 一 部 分 ) 


词法 分 析 从 左 至 右 读 字 符 ， 并 按 能 够 构成 单词 的 最 长 字符 序列 形成 词法 单词 。 例 如 ， 如 下 
代码 : i 
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for I37 6a:--12 by 1 to n17a do 


由 下 面 9 个 单词 组 成 : 


for II37 6a := -12 by 1 to ni7a do 


2.3 ICANBIÉ 


AR AES IHICANBUBESR , x08 T TO BU RTT RR VETTER AIC B IP BIRUT 4 ET. Juil 
几 节 将 形式 化 地 定义 ICAN 的 语法 ， 并 非 形式 化 地 定义 其 语义 。 

ICAN 程 序 由 类 型 定义 序列 、 跟 随 在 其 后 的 变量 声明 序列 、 过 程 声明 序列 以 及 一 个 可 选 的 
主 程序 组 成 。 

类 型 定义 由 类 型 名 后 跟 一 个 等 号 和 一 个 类 型 表达 式 组 成 ， 例 如 : 

intset - set of integer 

类 型 可 以 是 一 般 类 型 ， 也 可 以 是 编译 专用 类 型 ， 可 以 是 简单 类 型 ， 也 可 以 是 构造 类 型 。 一 
般 简 单 类 型 是 poolean、integer、real 和 character。 类 型 构造 符 列 在 下 表 中 : 





构造 符 名 K 声明 示例 

enum 枚 举 enum {left ,right} 

array... of 数组 array [1:-10] of integer 

set of 集合 set of MIRInst 

sequence of 序列 Sequence of boolean 

x 元 组 integer x set of real 

record 记录 record (x: real, y: real) 

U 联合 integer U boolean 

一 > 函数 integer 一 > set of real 
变量 声明 由 变量 名 后 面 依次 跟随 一 个 可 选 的 初始 值 、 冒 号 和 该 变量 的 类 型 组 成 ， 例 如 ， 
is := (1,3,7): intset 


过 程 声明 由 过 程 名 、 包 含 在 括号 中 的 过 程 参数 列表 、 可 选 的 返回 类 型 、 过 程 参数 声明 和 过 
程 体 构成 。 参 数 声明 由 逗号 分 开 的 变量 名 序列 、 冒 号 、in( 传 值 调用 ) Rout ( 传 结果 调用 ) 
或 inout ( 传 值 和 结果 调用 ) 三 者 之 一 ， 以 及 这 些 参数 的 类 型 依次 组 成 。 过 程 体 由 关键 字 
begin、 变 量 声明 序列 、 语 名 序列 以 及 关键 字 enda 依 次 组 成 。 例 如 ， 图 2-1、 图 2-2、 图 2-3 都 是 
过 程 声明 的 例子 。 













procedure exam(x,y,is) returns boolean 
X, y: out integer 
is: in intset 
begin 
tv := true: boolean 
z: integer 
for each z € is (z > 0) do 
if x = z then 
return tv 





fi 
od 
return y € is 
end | | exam 


图 2-3 ICAN 过 程 声 明之 例 
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表达 式 可 以 是 常数 、 变 量 、nil、 一 元 运算 符 后 跟 一 个 表达 式 、 二 元 运算 符 分 开 的 两 个 表 
达 式 、 括 号 表达 式 、 数 组 表达 式 、 序 列表 达 式 、 集 合 表达 式 、 元 组 表达 式 、 记 录 表 达 式 、 过 程 
或 函数 调用 、 数 组 元 素 、 元 组 元 素 、 记 录 域 、size 表 达 式 或 受 限 表达 式 。 操 作 数 和 运算 符 必 须 
在 类 型 上 兼容 。 
2.7 节 给 出 了 与 具体 类 型 相 适应 的 运算 符 。 其 中 有 几 个 含义 不 太 明显 的 运算 符 在 下 面 讨论 。 
以 下 是 构造 类 型 常数 的 例子 : 


类 型 Ti cz OR 
array [1::2,1:-:2) of real [[1.0,2.01,[3.0,4.0]] 
sequence of integer [2,3,5,7,9,11] 
integer X boolean <3, true> 
set of (integer x real) {<3,3.0),¢2,2.0>} 
record {x: real, y: real} (x:1.0,y:-1.05 


(integer x real) 一 > boolean {<1,2.0,true>,<1,3.0,false>} 


integer 和 real 类 型 包含 = 和- =。 空 集 用 1 表示 ， 空 序列 用 [] 表示 。 值 ni1 是 每 一 种 
类 型 的 成 员 ， 并 且 是 每 一 个 未 初始 化 变量 的 初 值 。 如 果 x 是 某 个 构造 类 型 的 成 员 ， 表 达 式 zx| 产 
生 x 的 大 小 一 一 例如 ， 集 合 的 基 、 序 列 的 长 度 等 。 

当 作 用 于 集合 时 ， 一 元 运算 符 “@”， 产 生 该 集合 的 任意 一 个 成 员 。 表 达 式 sq ! i 产生 序列 
sq 的 第 i 个 元 素 ，sg1@8sq2 产 生 sq1 与 592 的 连接 ， 而 sg e i 的 结果 是 从 sq 中 去 掉 第 i 个 元 素 ; AUI 
为 负数 ， 它 从 sq 的 末尾 往 回 数 。 表 达 式 tpl @ ;生成 元 组 名 /的 第 ;个 元 素 。 

编译 专用 的 类 型 根据 需要 来 定义 ， 例 如 ， 

Block = array [..] of array [..] of MIRInst 

Edge = Node x Node 

语句 包括 赋值 语句 、 调 用 语句 、 返 回 语句 、goto 语 句 、 让 语句 、case 语 句 以 及 for、while 和 
repeat 循 环 。 基 本 的 赋值 运算 符 是 “:=”。 同 C 语 言 一 样 ， 冒 号 也 可 以 用 满足 后 面条 件 的 任何 二 
元 运算 符 替 代 ， 这 种 二 元 运算 符 的 左 操作 数 与 赋值 结果 操作 数 相 同 ; 例如 ， 下 面 的 两 条 赋值 语 
名 含义 相同 : 

Seq := SeqG[9, 11] 

Seq 四 = [9, 11] 


每 一 个 复合 语句 有 一 个 终止 分 界 符 。 复 合 语句 的 开始 、 内 部 和 终止 分 界 符 如 下 所 列 : 





开始 内 部 终止 
if elif, else fi 
case of, default esac 
for do od 
while do od 
repeat until 





case 标 号 也 是 case 语 句 的 内 部 分 界 符 。 
该 语言 中 使 用 的 所 有 关键 字 都 是 保留 字 一 一 它们 不 能 作为 标识 符 。 关 键 字 列 在 表 2-8 中 。 
下 面 几 节 详 细 介绍 ICAN。 


2.4 完整 的 程序 


ICAN 程 序 由 类 型 定义 序列 、 随 后 的 变量 声明 序列 、 过 程 声明 序列 以 及 一 个 可 选 的 主 程序 
组 成 。 主 程序 的 形式 与 过 程 体 相 同 。 表 2-2 给 出 了 ICAN 程 序 的 语法 。 





表 2-2 完整 ICAN 程 序 的 语法 


TypeDef* VarDecl* ProcDecl* [MainProg] 
ProcBody 


— 


Program 
MainProg 


— 





2.5 类 型 定义 


类 型 定义 由 类 型 名 、 其 后 的 一 个 等 号 和 它 的 定义 组 成 〈 图 2-2 中 第 1、2 行 )。 类 型 定义 的 语 
法 在 表 2-3 中 给 出 。 类 型 定义 可 以 递归 。 由 递归 类 型 定义 所 定义 的 类 型 是 满足 该 定义 的 最 小 集 
合 ， 即 ， 该 定义 的 最 小 不 动 点 。 例 如 ， 由 下 式 

IntPair = ( IntPair x 


integer U IntPair ) 


定义 的 类 型 是 包含 所 有 整数 和 所 有 其 元 素 要 么 是 整数 要 么 是 该 类 型 的 元 素 组 成 的 偶 对 的 偶 对 的 
集合 。 


表 2-3 ICAN 类 型 定义 的 语法 





2.6 声明 


TypeDef — {TypeName =} TypeExpr 

TypeName 一 一 Identifier 

TypeExpr — SimpleTypeExpr | Constr TypeExpr | ( TypeExpr ) 
| TypeName | $ 

SimpleTypeExpr — boolean | integer | real | character 

ConstrTypeExpr 一 一 EnumTypeExpr | ArrayTypeExpr | SetTypeExpr 
| SequenceTypeExpr | TepleTypeExpr | Record TypeExpr 
| Union TypeExpr | FuncTypeExpr 

EnumTypeExpr — enun { Identifier va , Y 

ArrayTypeExpr — array [ ArrayBounds ] of TypeExpr 

ArrayBounds 一 一 {{Expr] «+ [Expr]} p<, 

SetTypeExpr — set of TypeExpr 

SequenceTypeExpr — sequence of TypeExpr 

TupleTypeExpr — TypeExpr va x 

Record TypeExpr 一 一 record { [Identifier a , : TypeExpr) >a, } 

UnionTypeExpr — TypeExpr pau 

FuncTypeExpr — TypeExpr va x —> TypeExpr 


表 2-4 给 出 了 ICAN 变 量 和 过 程 声明 的 语法 。 语 法 中 包括 了 非 终止 符 ConstExpr， 但 在 该 文法 
中 没有 它 的 定义 ， 它 代表 一 个 不 含 变量 的 表达 式 。 





表 2-4 ICAN 声 明 的 语法 
VarDecl — (Variable [:= ConstExpr]} ea , : TypeExpr 
Variable — Identifier 
ProcDecl — procedure ProcName ParamList [returns TypeExpr| 
ParamDecls ProcBody 
ProcName — Identifier 
ParamList — C [Parameter va ,] ) 
Parameter — Identifier 
ParamDecls — ParamDecl* 
ParamDecl 一 一 Variable >a , : {in | out | inout} TypeExpr 
ProcBody — begin VarDecl* Statement* end 
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变量 声明 由 所 声明 的 标识 符 的 名 字 、 一 个 可 选 的 初 值 、 冒 号 和 该 变量 的 类 型 组 成 (图 2-1 中 第 1、 
4、5 和 7~9 行 )。 数 组 的 维 界 是 其 类 型 的 一 部 分 ， 用 跟随 在 关键 字 array 之 后 、 放 置 在 方 括号 内 的 下 
标 值 范围 表 来 说 明 (图 2-2 中 第 8 行 )。 标 识 符 的 初 值 通 过 其 后 跟随 的 赋值 运算 符 “:=” 和 值 ( 它 可 以 
是 任何 单一 由 常数 构成 的 表达 式 ， 只 要 是 正确 的 类 型 ) 来 说 明 (图 2-1 中 第 7 行 )。 在 一 个 声明 中 可 以 
声明 多 个 相同 类 型 的 标识 符 ， 用 逗号 分 隔 这 些 标识 符 名 字 和 它 的 可 选 初 值 (图 2-1 中 第 8 和 9 行 )。 

过 程 声明 由 过 程 关键 字 procedure、 过 程 名 、 置 于 括号 之 中 的 参数 表 、 可 选 的 返回 类 型 、 
声明 参数 类 型 的 若干 缩 进行 (图 2-1 中 第 4 和 5 行 )， 以 及 过 程 体 组 成 《图 2-1 中 第 6~27 行 )。 返 回 
类 型 由 关键 字 returns 后 随 类 型 表达 式 组 成 (图 2-2 中 第 5 行 )。 参 数 可 声明 为 “in”( 传 值 调 
用 )、“out”( 传 结果 调用 ) 或 “inout”( 传 值 和 结果 调用 ) (参见 图 2-2 中 第 6~9 行 )。 过 程 的 
正文 在 关键 字 begin 和 end 间 缩 进 (图 2-1 中 第 6~27 行 )。 

将 类 型 定义 或 变量 声明 置 于 一 组 过 程 之 前 ， 可 以 使 它们 全 局 于 该 组 过 程 ( 图 2-1 中 第 1 行 和 
图 2-2 中 第 1、2 行 )。 


2.7 数据 类 型 和 表达 式 


表 2-5 和 表 2-6 分 别 给 出 了 ICAN 的 表达 式 和 一 般 简 单 常数 的 语法 。 


表 2-5 ICAN 表 达 式 语法 


Expr — Variable | SimpleConst | ( Expr ) | UnaryOper Expr 
| Expr BinaryOper Expr | ArrayExpr | SequenceExpr 
| SetExpr | TupleExpr | RecordExpr | ProcFuncExpr 
| ArrayEltExpr | SizeExpr | QuantExpr | Expr € TypeExpr 





| nil 
UnaryOper — !q-d5 
BinaryOper — z|*[&ivis*i-I*li/IXItI«Isi»Iz]u|^o 
lel#gixlel+leiel. 
ArrayExpr — [ Expres, ] 
SequenceExpr — L Expr va , 1 |" ASCIICharacter* " 
SetExpr — Ø | € Expr ea , | [Variable e] Expr where SetDefClause ) 
TupleExpr — CExprva ,> 
RecordExpr — € (Identifier : Expr} ea , > 
ProcFuncExpr 一 一 ProcName ArgList 
ArgList 一 一 ( [Expr os ,] ) 
ArrayEltExpr — Expr [ Exprea,] 
QuantExpr — (31v) Variable € [Expr | TypeExpr] ( Expr ) 
SizeExpr 一 人 | Expr | 
Variable — Identifier 
表 2-6 ICAN 一 般 简 单 类 型 的 常数 的 语法 
SimpleConst — IntConst | RealConst | BoolConst | CharConst 
IntConst — 0 | [-] NZDigit Digit* | [-] = 
NZDigit — 11213141516171819 
Digit — 0| NZDigit 
RealConst — [-] {IntConst . [IntConst] | [IntConst] . IntConst} 
[E IntConst] | [-] = 
BoolConst — true | false 
CharConst — ' ASCIICharacter ' 
Identifier 一 > Letter (Letter | Digit | _ \" 
Letter 一 一 al|...|z|A|...|2 
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类 型 是 具有 相同 值 属 性 的 成 员 的 集合 。 它 可 以 是 简单 类 型 ， 也 可 以 是 构造 类 型 ;可 以 是 一 
般 类 型 ， 也 可 以 是 编译 专用 的 类 型 。 

一 般 简 单 类 型 是 boolean、integer、real 和 character。 

构造 类 型 用 一 UE E AT .关于 构造 符 是 enum、 array...of, set of, 
sequence of. record, “U”, "x" 。 符 号 “U” 构造 联合 类 型 ， ”构造 元 组 
类 型 ，“ 一 ”构造 函数 类 型 。 

表达 式 可 以 是 常数 、 变 量 、nil、 一 元 运算 符 后 跟 一 个 表达 式 、 二 元 运算 符 分 开 的 两 个 表 
达 式 、 括 号 表达 式 、 数 组 表达 式 、 序 列表 达 式 、 集 合 表达 式 、 元 组 表达 式 、 记 录 表 达 式 、 过 程 
或 函数 调用 、 数 组 元 素 、 受 限 表 达 式 (quantified expression) 或 size 表 达 式 。 操 作 数 和 运算 符 
必须 在 类 型 上 兼容 ， 后 面 将 给 予 说 明 。 


2.7.1 一 般 简 单 类 型 
boolean 类 型 取 值 为 true 和 false。 右 表 的 二 
元 运算 符 作 用 于 布尔 类 型 变量 。 操作 符 ”号 
前 缀 一 元 “ 非 ” 运 算 符 “! ”作用 于 布尔 变量 。 等 于 - 
受 限 表达 式 具 有 布尔 值 。 它 由 符号 “3 了 ”或 不 等 于 + 
“V” 依 次 后 随 一 个 变量 .“e "、 类 型 值 或 集合 值 表 ERG & 
达 式 ， 以 及 括号 内 的 布尔 值 表达 式 组 成 。 例 如 ， ES M 
dv€var (Opnd(inst, v)) 操 作 符 号 
是 一 个 受 限 表 达 式 ， 它 的 结果 是 当 且 仅 当 存 在 某 个 加 " 
变量 v 使 得 Opnd (inst, v) 为 真 时 ， 它 的 值 才 为 真 。 减 - 
整数 值 可 以 是 0， 可 选 的 一 个 负 号 后 跟 一 至 多 个 十 进 R * 
制 数 字 (但 打头 数字 不 是 0) 组 成 的 数字 串 ，%“ 或 者 - ~。 人 
实数 值 有 三 种 形式 : 一 个 整数 后 跟 一 个 小 数 点 取 数 i 
和 一 个 整数 (这 两 个 整数 可 以 缺 其 中 的 一 个 ， 但 不 等 于 = 
可 以 全 部 都 缺 ) 以 及 一 个 可 选 的 指数 ，= 或 ~ 。5 不 等 于 * 
一 个 指数 是 字母 E 之 后 跟随 一 个 整数 。 rer < 
右 表 的 二 元 运算 符 作用 于 有 穷 整数 和 实数 。 nM 、 
前 缀 一 元 “ 取 负 ”运算 符 “- ”作用 于 有 穷 整数 和 大 于 等 于 > 
实数 。 只 有 关系 运算 符 作 用 于 无 穷 值 。 一 
字符 值 是 置 于 单 引 号 之 内 的 可 见 ASCII 字 符 ， 例 T eua k Ro oo 
dd, 'a'm'G'. m ALASCILETE (在 语法 中 用 未 定 ange rena 
义 的 非 终 止 符 ASCIICharacter 代 表 它 们 ) 是 所 有 可 打 a . 
印 ASCII 字 符 、 空 格 符 、 制 表 符 以 及 回 车 符 。 这 些 字 $e 
符 中 有 几 个 需要 用 右 表 所 示 转 义 序列 来 表示 。 $5 % 
二 元 运算 符 等 于 (“=”) BUNS (“=”) 作用 于 字符 。 
2.7.2 枚 举 类 型 
枚 举 类 型 是 标识 符 的 有 限 非 空 集 合 。 用 如 下 形式 的 声明 来 声明 变量 var 为 枚 举 类 型 : 
var: enum (element, ... ,element,) 


O ICAN 实 数 不 是 浮 点 数 一 一 它们 是 数学 意义 上 的 实数 。 
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其 中 每 一 个 element; 是 标识 符 。 
下 面 的 例子 声明 action 是 一 个 枚 举 类 型 的 变量 : 
action: enum (Shift, Reduce, Accept, Error) 
二 元 运算 符 等 于 (-") 和 不 等 于 (C+) 作用 于 枚 举 类 型 的 各 成 员 。 
枚 举 类 型 的 元 素 可 以 作为 case 的 标号 (02.8.64 ) 。 
2.7.3 数组 
用 如 下 形式 的 声明 来 声明 变量 var 为 数组 类 型 : 
var. array [subslist] of basetype 
其 中 supslis! 是 逗号 分 开 的 下 标 范围 表 ， 每 一 个 下 标 可 以 只 由 “..” 组 成 。pasetfype 是 数组 元 素 
的 类 型 。 例 如 ， 代 码 段 


U: array [5:-8] of real 
V: array [1-:2,1:-3] of real 


U := [1.0,0.1,0.01,0.001] 
V := [[1.0,2.0,3.0], [4.0,5.0,6.0]] 
声明 U 是 一 维 数组 ， 其 下 标 范围 从 整数 5 到 8; V 是 一 个 二 维 数组 ， 它 的 第 一 个 下 标 范围 从 整数 1 
到 2， 第 二 个 下 标 范 围 从 整数 1 到 3; 并 且 这 两 个 数组 的 元 素 都 是 实数 类 型 。 这 段 声明 同时 指定 
了 具体 的 数组 常数 作为 这 两 个 数组 的 值 。 

当然 ， 数 组 也 可 以 看 成 是 从 若干 整数 序列 的 乘积 到 其 他 类 型 的 一 种 有 限 函 数 。 

一 维 数组 类 型 常数 是 置 于 方 括号 中 、 用 逗号 分 开 的 元 素 类 型 的 常数 序列 ， 其 长 度 是 有 i 一 lo 
+ 1， 其 中 lo 和 hi 分 别 是 下 标的 最 小 值 和 最 大 值 。n (n > 1) 维 数组 类 型 常数 是 置 于 方 括号 中 、 
用 逗号 分 开 的 n — 1 维 数组 类 型 的 常数 序列 ， 此 n — 1 维 数组 是 删除 第 一 维 下 标 后 获得 的 数组 。 这 
串 常数 的 长 度 是 所- o + 1， 其 中 lo 和 hi 分 别 是 第 一 维 下 标的 最 小 值 和 最 大 值 。 因 此 ， 数 组 是 以 
行为 主 的 。 

二 元 运算 符 等 于 (“=”) MRS C+”) 作用 于 整个 数组 。 当 n 维 数组 值 表达 式 后 跟 一 
个 置 于 方 括号 中 、 用 逗号 分 开 且 至 多 n 个 下 标 值 列表 时 ， 这 也 是 一 个 表达 式 。 

注意 ， 下 面 两 个 数组 类 型 


array [1..10, 1..10] of integer 

array [1..10] of array [1..10] of integer 
是 不 同 的 ， 即 使 这 两 个 类 型 的 常数 没有 区 别 。 第 一 个 是 二 维 数组 ， 而 第 二 个 是 由 一 维 数组 组 成 
”的 一 维 数组 。 [30] 
2.7.4 集合 

集合 类 型 的 变量 var 可 以 用 它 的 基 类 型 的 任意 子 集 作 为 它 的 值 ， 其 声明 具有 如 下 形式 : 

var: set of basetype 
其 中 ，basetype 是 集合 元 素 的 类 型 。 

集合 常数 可 以 是 空 集 “8 ”、 置 于 花 括 号 中 用 喜 号 分 开 的 一 串 元 素 ， 或 者 有 意 定义 的 集合 
常数 。 所 有 元 素 必 须 具 有 相同 的 类 型 。 例 如 ， 下 面 是 一 些 集合 常数 : 

Ø (1) (1, 2, 100) («true, 1.0», «false, -2.3>} 

(n € integer where 0 < n& n« 20& n$ 2 = 0) 


还 有 ,在 下 面 的 程序 段 中 ， 
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B: set of integer 
B := {1,4,9,16} 





B := {n € integer where 3m € integer (1 < m&m< 4&n=m* m)) 
两 个 赋值 都 是 合法 的 ， 且 都 赋予 B 相 同 的 值 。 

右 表 的 二 元 运算 符 作 用 于 集合 : B f 符号 
其 中 ， 最 后 两 个 运算 符 “< ”和 “< ”的 左 操作 并 U 
数 是 类 型 为 g 的 值 ， 右 操作 数 是 类 型 为 “set of X n 
b” 的 值 ， 并 产生 一 个 布尔 类 型 的 结果 。 RET "€", 益 7 
如 果 左 操作 数 是 右 操作 数 的 成 员 ， 其 结果 为 OA > 
true; 否则 为 false。 对 于 “”， 如 果 左 操作 数 (XR e 


是 右 操作 数 的 成 员 ， 结 果 为 false; 否则 为 true。 
前 级 一 元 运算 符 “ 令 ”从 它 的 集合 操作 数 中 


Tmp := A 





随机 地 选取 一 个 元 素 ， 这 个 被 选中 的 元 素 就 是 结 for each a € A do while Tmp * Ø do 
果 。 例 如 ， 令 {1，2，7) 的 结果 可 以 是 1、 2、7 |。 0 ae 
中 任意 之 一 。 ` body 

HX. CEARR 67 SAF forge od 
代 中 的 相同 符号 是 不 同 的 ,前 者 产生 一 个 布尔 值 ， a) » 
后 者 是 一 个 能 够 产生 一 系列 值 的 较 大 表达 式 的 一 图 2-4 a) 在 集合 上 进行 选 代 的 ICAN 循 环 ， 
部 分 ， 如 图 2-4 所 示 。 图 a) 中 的 代码 在 含义 上 与 b) 等 价 的 while 循 环 


图 b) 的 代码 等 价 ， 其 中 Tmp 是 与 A 具有 相同 类 型 的 一 个 新 临时 变量 。 
另外 ， 在 语法 描述 中 未 定义 的 非 终止 符 5etDefClause 是 一 个 从 旬 ， 它 有 针对 性 地 定义 集合 
中 的 元 素 ， 例如 下 面 代码 中 where 和 “}” 之 闻 的 部 分 就 是 这 样 的 一 个 从 句 : 
S := (n € N where Je € E (e @ 2 = n)) 
IX. AASetDefClauseH S&-& E LAE "TUB EE GEIGER AR. DEAD, WFLA 
值 语 句 ， 假 设 E 的 类 型 是 N 的 类 型 与 自身 的 积 ， 则 可 用 下 面 的 代码 来 替换 : 
S :=9 
for each n € N do 
for each e € E do 
if e02 = n then 
S u= ín) 
fi 
od 
od 


2.7.5 序列 

如 下 形式 用 来 声明 一 个 变量 ver 为 序列 类 型 ; 

var: sequence of basetype 
其 中 ，basetype 是 此 序列 的 元 素 的 类 型 ， 它 们 的 成 员 可 作为 var 的 值 。 

序列 类 型 常数 由 置 于 方 括号 内 、 用 逗号 分 开 的 一 组 有 限 基 类 型 成 员 组 成 。 所 有 这 些 成 员 必 
须 具 有 相同 的 类 型 。 空 序列 记 为 “[]”。 例 如 ， 下 面 是 一 些 序列 常数 : | 

[1 [1] {1, 2, 1] [true, false] 

二 元 运算 符 “@” 表 示 序 列 的 连接 。 二 元 运算 符 “ 1“ 作用 于 一 个 序列 和 一 个 非 零 整数 时 ， 
表示 从 该 序列 中 选择 一 个 元 素 。 具 体 而 言 ， 正 整数 选择 序列 中 的 第 "个 元 素 ， 负 整数 - “选择 
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序列 的 倒数 第 n 个 元 素 。 例 如 ，[2,3,5,7] 12-=3, [2,3,5,7] 1 -2 = 5。 二 元 运算 符 e 作 
用 于 一 个 序列 s 和 一 个 非 零 整数 4 时， 生成 从 该 序列 删除 第 n 个 元 素 后 形成 的 一 个 序列 。 例 如 ， 
[2,3,5,7] e2=[2,5,7], [2,3,5,7]e-2=[2,3,7]。 

类 型 CharString 是 sequence of character 的 缩写 。 例 如 ，'"'ab CD' 与 ['a'， 
'b',' ','C','D'] 相 同 。 可 以 互 换 [] 和" "来 表示 空 的 charString， 并 且 对 于 任意 字符 x， 
有 ['x']= "x". 

注意 ， 数 组 常数 是 序列 常数 的 子 集 一 一 惟一 的 不 同 是 ， 在 数组 常数 中 ， 每 一 妖 套 层 内 的 所 
有 成 员 必须 具有 相同 的 长 度 。 


2.7.6 元 组 
如 下 形式 用 来 声明 变量 var 为 元 组 类 型 : 
var: basetype, x ... x basetype, 


其 中 ，basetype; 是 第 i 个 元 素 的 类 型 。 
元 组 常数 是 置 于 尖 括 号 内 、 用 逗号 分 开 且 长 度 固 定 的 表 。 考 虑 下 面 的 元 组 类 型 例子 : 
integer x integer x boolean 
这 个 类 型 的 元 素 是 三 元 组 ， 其 第 一 个 和 第 二 个 元 素 是 整数 ， 第 三 个 元 素 是 布尔 值 ， 例 如 <1，7， 
true>。 下 面 也 是 元 组 常数 的 例子 : 
<l> «1,2, true» «true, false» 
当 作 用 于 一 个 元 组 和 一 个 正 整数 索引 时 ， 二 元 运算 符 @ 产生 元 组 中 具有 该 索引 的 元 素 。 
plan, <1, 2, true>@3 = true. 


2.7.7 记录 
如 下 形式 的 声明 将 变量 var 声 明 为 记录 类 型 : 
var. record {idents,: basetype,, ..., idents,: basetype,} 


Heh, idents, 是 逗号 分 开 的 成 员 选择 符 表 ，pasetype; 是 对 应 成 员 的 类 型 。 
记录 常数 是 一 个 元 组 ， 其 中 每 一 个 元 素 是 标识 符 〈 称 为 选择 符 ) 和 值 组 成 的 偶 对 ， 中 间 用 
冒号 分 开 。 一 个 特定 记录 类 型 的 所 有 值 都 必须 具有 相同 的 标识 符 集合 ， 并 且 ， 对 于 每 一 个 标识 
符 ， 这 些 值 必须 具有 相同 类 型 ; 但 是 ， 与 不 同 选择 符 对 应 的 值 可 以 是 不 同 的 类 型 。 例 如 ， 由 如 
下 类 型 定义 
ibpair = record (int: integer, 
bool: boolean) 
定义 的 类 型 tbppair 以 形 如 <int:i, bool:b» 的 偶 对 作为 其 成 员 ， 其 中 i 是 整数 ，5b 是 布尔 值 。 
在 记录 类 型 成 员 中 ， 偶 对 的 顺序 无 关 紧 要 ， 因 此 ，<int:3，bool:true> 和 <bool:true， 
int :3> 是 相同 的 记录 常数 。 下 面 是 记录 常数 的 例子 : 
<r1:1.0, im:-1.0> «left:1, right:2, val:true> 
将 二 元 运算 符 “.” 作 用 于 一 个 记录 和 一 个 其 值 是 记录 选择 符 之 一 的 表达 式 时 ， 其 结果 是 
该 选择 符 对 应 成 员 的 值 。 例 如 ， 在 下 面 的 代码 段 中 ， 
ibpair = record (int: integer, 
bool: boolean) 
b: boolean 
ibp: ibpair 
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ibp := (int:2,bool:true? 
ibp.int :- 3 
_b := ibp.bool 


ibp 和 b 最 后 的 值 分 别 是 <int:3, bool:true> 和 true。 
2.7.8 联合 


联合 类 型 是 构成 该 联合 的 各 种 类 型 的 值 的 集合 的 并 和 集 。 如 下 形式 的 声明 用 来 声明 变量 var 
为 联合 类 型 : 

var: basetype, U ...U basetype, 
Hep, basetype, 是 构成 该 联合 类 型 的 类 型 集合 中 的 一 种 类 型 。 

作为 联合 类 型 的 例子 ， 考 虑 integer Uboolean， 这 个 类 型 的 元 素 要 人 么 是 整数 ， 要 么 是 
布尔 值 。 

所 有 能 作用 于 集合 的 运算 符 都 能 作用 于 联合 。 如 果 构 成 联合 类 型 的 集合 是 不 相交 的 ， 那 么 
联合 中 的 元 素 所 属 的 集合 可 以 用 成 员 运算 符 “e ”来 确定 。 
2.7.9 Re 

国 数 类 型 有 一 个 定义 域 类 型 〈 写 在 箭头 的 左边 ) 和 一 个 值 域 类 型 〈 写 在 箭头 的 右边 ) 。 

如 下 形式 用 来 声明 一 个 变量 var 是 函数 类 型 : 

var: basetype, x … x basetype, > basetypeo 


其 中 ， 对 于 i = 1, …, n，basetypei; 是 定义 域 的 第 个 成 员 的 类 型 ，basetypeo 是 值 域 的 类 型 。 

有 n 个 参数 的 函数 常数 是 一 个 集合 ， 它 的 每 一 个 元 素 是 一 个 (n+1) 元 组 .此 (n+1) 元 
组 的 前 "个 成 员 分 别 是 定义 域 的 第 一 至 第 n 个 类 型 ， 第 (n+1) 个 成 员 是 值 域 类 型 。 要 成 为 一 个 
函数 ， 元 组 集合 必须 是 单 值 的 ， 即 ， 如 果 两 个 元 组 的 前 "个 成 员 相 同 ， 这 两 个 元 组 的 第 (ni 1) 
个 成 员 也 必须 相同 。 


作为 函数 类 型 的 一 个 例子 ， 考 虚 bpoolean 一 ijnteger。 此 函数 类 型 的 变量 或 常数 是 一 种 、 


偶 对 的 集合 : 其 第 一 个 成 员 是 布尔 值 ， 第 二 个 成 员 是 整数 。 也 可 以 用 赋值 或 含 类 型 名 的 赋值 来 
表示 。 例 如 ， 给 定 声 明 


A: boolean ~ integer 


于 是 ， 为 了 指定 A 的 一 个 具体 函数 值 ， 可 以 写 为 : 


A := {<true, 3>, <false, 2>} 
REA: 

A(true):= 3 

A(false):= 2 


函数 不 必 对 每 一 个 定义 域 元 素 有 定义 值 。 
2.710 编译 专用 的 类 型 

编译 专用 的 类 型 都 以 首 字 母 大 写 的 形式 命名 ， 并 且 在 正文 中 根据 需要 定义 。 根 据 需 要 ， 它 
们 可 以 是 简单 的 ， 也 可 以 是 构造 的 。 例 如 ， 类 型 Var、Vocab 和 Operator 都 是 简单 类 型 ， 而 
下 面 定义 的 类 型 Procedure、Block 和 Edge 都 是 构造 的 。 


Block = array [::] of array [--] of MIRInst 
Procedure = Block 
Edge - Node x Node 
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其 中 类 型 MIRInst 也 是 构造 的 ， 它 在 4.6.1 节 定义 。 
2.7.11 值 nil 


值 ani1 是 每 一 种 类 型 的 成 员 。 它 是 所 有 未 初始 化 变量 的 初 值 。 在 大 部 分 上 下 文中 ,在 一 个 
表达 式 中 使 用 nil1 作 为 操作 数 将 导致 结果 也 为 ni1。 例 如 ，3+nil 等 


nil 305 结 果 

lile Å 
用 ni1 作 为 表达 式 的 操作 数 而 不 产生 ni1 结 果 的 惟一 表达 式 是 等 于 UC me 

和 不 等 于 比较 ， 如 右 表 所 示 。 — nil*nil false 
其 中 ，a 是 非 ni1 的 任意 值 。 atmi tme 


另外 ，ni1 可 以 出 现在 赋值 语句 的 右 端 (图 2-2 中 第 13 行 )， 也 可 
以 作为 过 程 的 参数 或 返回 值 。 


2.7.12 size 运算 符 


运算 符 “11” 作 用 于 所 有 构造 类 型 的 对 象 。 在 所 有 情况 下 ， 它 的 值 是 其 操作 数 的 元 素 个 
数 ， 只 要 其 操作 数 大 小 是 有 限 的 。 例 如 ， 若 A 声明 为 : 

A: array [1..5, 1..5] of boolean 
并 且 f 被 声明 和 定义 为 : 

f: integer x integer —> boolean 

£(1,1) := true 


f(1,2) := false 
f(3,4) := true 


1{1,7,23}] = 3 

1 ['a' ,'b','e','c','b']I = 5 
IKrl:t.0,im:-1.02| = 2 

[Al = 25 

Ifl = 3 


车 x 的 大 小 是 无 穷 的 ， 则 kl 是 不 确定 的 。 
2.8 语句 


语句 包括 赋值 语句 (例如 图 2-1 中 第 12 和 19 行 )、 过 程 和 函数 调用 语句 (图 2-1 中 第 19 行 和 
图 2-2 中 第 34 行 )、 返 回 语 名 (图 2-2 中 第 29 和 第 40 行 )、goto 语 名 (图 2-2 中 第 35 行 )、if 语 句 (图 
2-1 中 第 22~24 行 )、case 语 句 (图 2-2 中 第 25~31 行 ) 以 及 for 循 环 (图 2-1 中 第 16~25 行 )、while 循 
HR (图 2-1 中 第 14~26 行 )、repeat 循 环 (图 2-2 中 第 24~32 行 )。 表 2-7 给 出 了 它们 的 语法 。 
表 2-7 ICAN 语 句 的 语法 
Statement — AssignStmt | ProcFuncStmt | ReturnStmt 


| GotoStmt | IfStmt | CaseStmt | WhileStmt 
| ForStmt | RepeatStmt | Label : Statement 


| Statement ; 
Label 一 一 Identifier 
AssignStmt — (LeftSide :=}* LeftSide (: | BinaryOper) = Expr 
LeftSide — Variable | ArrayElt | SequenceElt | TupleElt | RecordElt 


| FuncElt 
ArrayElt — Leftside [ Exprva,] 
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SequenceElt 
TupleElt 
RecordEilt 
FuncElt 
ProcFuncStmt 
ReturnStmt 
GotoStmt 
IfStmt 


CaseStmt 
WhileStmt 
ForStmt 


Iterator 


RepeatStmt 


bllidddd 


| 


— 


(GE) 


LeftSide 4 Expr 

LeftSide @ Expr 

LeftSide . Expr 

LeftSide ArgList 

ProcFuncExpr 

return [Expr] 

goto Label 

if Expr then Statement* [elif Statement*}* 
[else Statement"] fi 

case Expr of (CaseLabel : Statement*}* 
[default : Statement*| esac 

while Expr do Statement* od 

for Iterator do Statement* od 

{Variable := Expr [by Expr] to Expr 

| each Variable pa , € {Expr | TypeExpr]) (CExpr)] 
repeat Statement* until Expr 


语句 可 以 带 有 一 个 标号 (图 2-2 中 第 38 行 )。 语 句 标号 是 一 个 标识 符 后 跟 一 个 冒号 。 
每 个 结构 化 的 语 旬 体 用 诸如 if 和 fi 的 关键 字 来 界定 。 


2.8.1 


赋 什 语句 


赋值 语句 由 一 至 多 个 左 部 和 一 个 右 部 组 成 ， 其 中 ， 每 一 个 左 部 其 后 跟随 有 一 个 赋值 运算 符 


(图 2-1 中 第 10、12、 


15、19 和 21 行 )。 每 一 个 左 部 可 以 是 变量 名 或 变量 的 元 素 名 ， 如 记录 、 数 


组 、 序 列 或 元 组 的 成 员 ， 或 函数 值 。 每 一 个 左 部 的 赋值 运算 符 ， 除 了 最 后 一 个 之 外 ， 都 必须 是 
“: =”。 最 后 一 个 赋值 运算 符 可 以 是 “:=”( 图 2-1 中 第 10 和 17 行 ， 图 2-2 中 第 26~28 行 )， 也 可 以 
是 扩展 的 赋值 运算 符 一 这 种 赋值 运算 符 的 冒号 被 一 个 其 左 操作 数 与 结果 操作 数 相同 的 二 元 运 
算 符 所 替代 (图 2-1 中 第 19 行 ， 图 2-2 中 第 19 和 39 行 )。 例 如 ， 下 面 的 所 有 赋值 都 是 合法 的 : 


recex = record {lt,rt: boolean) 


i 
j 


i 
f 
g 
P: 
t 
r 


» j: integer 
: integer —> (boolean —> integer) 
: integer —» sequence of recex 
sequence of integer 

: boolean x boolean 
: recex 


:= 3 
:= i += 1 


f(3)(true) := 7 
g(012.1t := true 
p42 := 3 

te@l := true 


r.rt := r.lt :- false 


赋值 语句 的 右 部 可 以 是 任何 类 型 兼容 的 表达 式 (参见 2.7 节 )。 当 一 个 扩展 赋值 运算 符 作用 
于 原来 的 赋值 形式 时 ， 赋 值 语句 的 左 部 和 右 部 必须 具有 相同 的 类 型 。 跟 在 扩展 赋值 运算 符 后 面 
的 右 部 的 计算 就 好 像 右 部 带 有 括号 一 样 。 例 如 ， 赋 值 语 名 


S 


:= S1 U= {a}fix 


等 价 于 
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S := S1 := S1U((a) X) 
它 又 等 价 于 
S1 := S1U ({a} NX) 
S := S1 
但 不 等 价 于 
S1 := (S1U(a)) Nx 
S := S1 


2.8.2 过 程 调用 语句 
过 程 调用 语句 具有 过 程 表达 式 的 形式 ， 即 表 2-5 中 的 ProcFuncExpr。 它 由 过 程 名 后 跟 置 于 
括号 中 、 用 逗号 分 开 的 参数 表 组 成 。 它 导致 用 指定 的 参数 调用 所 命名 的 过 程 。 
2.8.3 返回 语句 
返回 语句 由 关键 字 return 后 跟 一 个 可 选 的 表达 式 组 成 。 
2.8.4 ” goto 语句 


goto 语 句 由 关键 字 goto 后 跟 一 个 标号 组 成 。 
2.8.5 if 语句 
if 语句 具有 如 下 形式 : 


if conditiono then 
then body 
elif condition, then 


elif body, 


elif condition, then 
elif body, 


else 
else body 
fi 
其 中 ，elif 和 else 部 分 是 可 选 的 。 条 件 conrdifion 是 布尔 值 表 达 式 ， 并 且 按 捷径 方式 来 计算 ， 
即 ， 给 定 pVg， 当 且 仅 当 P 求 值 为 false 时 才 计 算 g4。 每 一 个 if 体 是 零 个 或 多 个 语句 的 序列 。 


2.8.6 casei&fy 
case 语 句 具 有 如 下 形式 : 


case selector of 
label: body, 
labeh: | body; 


label,: | body, 
default: body, 
esac 


其 中 aefault 部 分 是 可 选 的 。 每 一 个 标号 是 一 个 与 seiector 表 达 式 同类 型 的 常数 ，selector 表 达 
式 必 须 是 简单 类 型 或 枚 举 类 型 。 每 个 执行 体 是 零 个 或 多 个 语句 的 序列 。 同 Pascal 一 样 ， 在 执行 
了 其 中 的 一 个 选择 对 应 的 执行 体 之 后 ， 控 制 从 闭 分 界 符 “esac” 之 后 的 语句 继续 执行 。case 
语句 必须 至 少 有 一 个 非 sefault 的 case 标 号 和 对 应 的 执行 体 。 
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2.8.7 whilei& f 
while 语 句 具 有 如 下 形式 : 


while condition do 
while body 
od 


其 中 ， 条 件 condition 是 布尔 值 表达 式 ， 并 且 按 捷径 方式 计算 。while 循 环 体 是 零 至 多 条 语句 的 序列 。 
2.8.8 for 语句 

for 语 句 具 有 如 下 形式 : 

for iterator do 


for body 
od f 


其 中 ， 选 代 符 ierator 可 以 是 数值 的 ， 也 可 以 是 枚 举 的 。 数 值 和 迭代 符 依次 指定 一 个 变量 、 一 个 值 


域 以 及 一 个 括号 内 的 布尔 表达 式 , 如 “i := n by -1 to 1 (A[i]=0)”( 参 见 图 2-2 中 第 
12~14 行 )。 如 果 “by” 部 分 是 “by 1”， 则 它 是 可 选 的 。 布 尔 表 达 式 也 是 可 选 的 ， 如 果 它 没 
有 出 现 ， 则 使 用 值 true。 变 量 i 的 值 在 循环 体内 不 可 以 被 改变 。 

BHR, Blan “each neN (n* 上 abc)”( 参 见 图 2-1 中 第 11~13 行 和 第 16~25 行 ) 或 
“each p, qeT (pz*d)”， 只 选择 集合 中 所 有 那些 满足 某 种 条 件 的 元 素 ， 选 择 的 顺序 不 确定 ， 
具体 条 件 则 由 集合 操作 数 之 后 括号 内 的 布尔 表达 式 指 明 。 在 没有 带 括 号 的 布尔 表达 式 的 情况 下 ， 
使 用 true 值 作为 选择 条 件 。 如 果 变 量 部 分 有 多 个 元 素 ， 它 们 都 必须 满足 相同 的 标准 。 例 如 ， 
“each m, neN (1<m& m&n & ngk2)” 导 致 变量 偶 对 <m，n> 的 定义 域 按 某 种 顺序 为 <1， 
1>、<1，2> 和 <2，2>。 对 于 任何 出 现在 迭代 符 中 的 集合 $5，for 语 名 的 循环 体 不 能 改变 5 的 值 。 

循环 体 由 一 至 多 条 语句 组 成 。 
2.8.9 ”repeat 语句 

repeat 语 句 具 有 如 下 形式 : 
repeat 


repeat body 
until condition 


其 中 ， 循 环 体 由 一 至 多 条 语句 组 成 。 条 件 condition 是 一 个 按 捷径 方式 求 值 的 布尔 值 表达 式 。 
2.8.10 ICAN 的 关键 字 
ICAN 的 关键 字 列 在 表 2-8 中 ， 它 们 都 是 保留 字 ， 不 能 用 作 标识 符 。 
表 2-8 ICAN 的 关键 字 





‘array begin boolean by 

case character default do 

each elif else ` end 
enum esac false fi 

for goto if in 
inout integer nil od 

of . out | procedure real 
record repeat return returns 
sequence set to true 
until where while 
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2.9 小 结 

这 一 章 主要 描述 ITCAN， 这 是 用 于 表示 本 书 算法 的 一 种 非 形式 化 表示 。 | 

这 种 语言 包含 了 一 套 丰富 的 预定 义 和 构 造 类 型 ， 包 括 那 些 专门 用 于 编译 器 结构 的 类 型 ， 而 
且 这 种 语言 能 够 有 效 地 表示 各 种 表达 式 和 语句 。 它 的 每 一 种 复合 语句 都 用 闭 分 界 符 终止 ， 其 中 
有 些 复合 语句 ， 如 while 和 case 语 句 还 有 内 部 的 分 界 符 。 

该 语言 的 非 形式 性 主要 体现 在 它 的 各 种 结构 的 语义 不 是 特别 详细 而 精确 ， 当 一 个 结构 在 语 
法 上 合法 时 ， 在 语义 上 它 可 能 有 二 义 性 、 不 确定 性 ， 也 可 能 是 非法 的 。 
2.10 进一步 阅读 

没有 ICAN 的 参考 文献 ， 因 为 它 是 专门 为 本 书 而 发 明 的 。 


2.11 练习 


2.1 


2.2 


2.3 


2.4 


2.5 


ADV2.6 





(a) 描述 如 何 将 XBNF 语 法 表示 转换 成 只 使 用 连接 的 表示 。(b) 应 用 你 的 方法 重 写 下 
面 的 XBNF 描 述 。 

E — V|IAE|CEO |ST|SE| TE 

AE — [( El ni1]] 

ST 一 “acts 

SE — O({E*} 

TE 一 <Epa,> 

描述 如 何 用 不 包含 数组 、 集 合 、 记 录 、 元 组 、 乘 积 和 函数 的 ICAN 版 本 来 实现 数组 、 
集合 、 记 录 、 元 组 、 乘 积 和 函数 ， 以 及 它们 的 运算 〈 即 ， 利 用 联合 和 序列 构造 符 来 
表示 其 他 构造 类 型 )， 并 以 此 说 明 它 们 都 只 是 ICAN 的 “句法 上 的 修饰 成 分 ”。 

(a) 已 知 结 点 集合 N GNode、 一 个 无 向 弧 集 合 E GC Node x Node， 以 及 开始 与 结束 结 
点 Start，goal eN， 写 一 个 走 迷 富 的 ICAN 算 法 。 算 法 应 当 返 回 一 个 结 点 表 ， 表 内 
的 结 点 构成 了 从 start 到 goal 的 一 条 路 径 ; 如 果 不 存在 这 种 路 径 ， 返 回 nil。 
(b) 你 的 这 个 算法 关于 n=1N1 和 e=1E1 的 时 间 复 杂 度 是 多 少 ? 

利用 上 一 习题 的 算法 解 货 郎 担 问题 ， 即 ， 返 回 一 个 开始 并 结束 于 start， 经 过 所 有 
结 点 (start 除 外 ) 一 次 且 仅 一 次 的 路 径 组 成 的 结 点 表 。 如 果 不 存在 此 路 径 ， 返 回 
nil. 

已 知 集合 A 的 二 元 关系 R SA x A， 写 出 一 个 计算 此 关系 的 自 反 传递 闭 包 的 ICAN 过 程 
RTC (R,x,y) 。 自 反 传 递 闭 包 R， 记 为 Rx*， 当 且 仅 当 a=b 满 足 aR*b; 或 者 存在 一 个 
c, (@aRcHcR*b. Alle, #xR*y, RTC(R, X,Yy) 返 回 true， 否 则 返回 false。 
我 们 在 ICAN 中 有 意 省 去 了 指针 ， 因 为 指针 会 引起 一 些 严重 的 问题 ， 而 不 使 用 指针 就 
可 以 完全 避免 这 些 问 题 。 这 些 问题 包括 指针 别名 和 可 能 创建 环形 结构 。 指 针 别 名 是 
指 两 个 以 上 的 指针 指向 同一 个 对 象 ， 因 此 改变 其 中 一 个 指针 的 引用 会 影响 其 他 指针 
的 引用 。 环 形 结构 是 一 个 指针 序列 ， 该 指针 序列 经 过 一 系列 的 引用 后 又 回 到 其 开始 
处 。 但 是 ， 不 使 用 指针 会 降低 算法 应 有 的 效率 。 假 设 我 们 决定 将 ICAN 扩 充 为 包含 指 
针 的 PICAN (a) 列 出 这 样 做 的 优 缺点 ; (D) 讨论 此 语言 所 需要 的 扩充 ， 以 及 这 些 扩充 
对 程序 员 和 语言 实现 所 产生 的 问题 。 





第 3 章 符号 表 结 构 


本 章 探讨 有 关 符 号 表 构 造 的 问题 ， 包 括 如 何 设计 反映 现代 程序 设计 语言 特征 的 符号 表 ， 以 ， 


及 如 何 使 它们 对 于 这 些 语言 的 编译 实现 更 具 效 率 等 。 

我 们 首先 讨论 符号 可 能 属于 的 存储 类 ， 以 及 支配 符号 在 程序 各 个 部 分 中 可 见 性 的 规则 ， 也 
即 作用 域 规则 。 接 着 讨论 符号 属性 和 构造 局 部 符号 表 的 方法 ， 局 部 符号 表 适 用 于 其 作用 域 单一 
的 符号 。 然 后 讲述 全 局 符号 表 的 表示 ， 包 括 作用 域 的 导入 和 导出 ， 并 给 出 全 局 和 局 部 符号 表 的 
程序 设计 接口 ， 以 及 用 ICAN 表 示 的 、 根 据 属性 生成 存 取 变量 的 子 程序 。 


3.1 存储 类 、 可 见 性 和 生命 期 


多 数 程序 设计 语言 允许 给 变量 指定 存储 类 (storage classes )。 存 储 类 规定 了 变量 的 作用 域 、 
可 见 性 和 生命 期 等 特征 。 正 如 后 面 将 看 到 的 ， 支 配 作用 域 的 规则 也 决定 了 符号 表 的 构造 规则 和 
运行 时 访问 变量 的 表示 规则 。 

作用 域 (scope) 是 其 内 说 明了 一 个 以 上 变量 的 静态 程序 结构 单元 。 在 许多 语言 中 ， 作 用 
域 可 以 嵌 套 。Pascal 中 有 过 程 作 用 域 ，C 中 有 块 、 函 数 、 文 件 作 用 域 。 与 作用 域 密切 相连 的 一 
个 概念 是 变量 的 可 见 性 (visibility)， 可 见 性 指出 变量 名 引用 的 特定 实例 处 在 什么 作用 域内 。 
例如 ， 在 Pascal 中 ， 如 果 变 量 a 在 最 外 层 作用 域 中 声明 ， 那 么 ， 它 在 该 程序 的 所 有 地 方 都 是 可 
见 的 9 ， 但 不 包括 在 同样 声明 了 变量 a 的 函数 内 ， 也 不 包括 在 该 函数 所 修 套 的 函数 内 ; 这 些 
函数 见 到 的 是 局 部 变量 a (除非 它 又 被 同名 的 另 一 个 变量 声明 所 取代 )。 如 果 最 内 层 作用 域 的 
变量 使 得 外 层 作 用 域 中 的 同名 变量 暂时 变 为 不 可 见 的 ， 则 称 内 层 变量 遮盖 (shadows) 了 外 
层 变 量 。 

变量 的 生命 期 (lifetime) 是 声明 此 变量 的 程序 的 一 段 执行 时 期 ， 它 从 变量 第 一 次 可 见 时 开 
始 ， 到 最 后 一 次 可 见 时 结束 。 因 此 ，Pascal 程 序 中 最 外 层 声明 的 变量 的 生命 期 为 程序 的 整个 执 
行 期 间 ， 而 在 嵌 套 过 程 内 声明 的 变量 可 以 有 多 次 生命 期 ， 每 次 生命 期 从 过 程 入 口 开 始 ， 到 过 程 
退出 时 结束 。Fortran 中 那些 具有 save 属 性 的 变量 ， 或 C 中 那些 具有 static 属 性 的 局 部 变量 具 
有 不 连续 的 生命 期 一 一 若 它们 在 过 程 E() 中 声明 ， 它 们 的 生命 期 由 f O 的 各 次 执行 期 组 成 ， 并 
且 它 们 的 值 从 一 次 执行 期 保存 到 下 一 次 执行 期 。 

几乎 所 有 的 语言 都 有 全 局 的 (global) 存储 类 。 全 局 存储 类 赋予 变量 的 生命 期 为 程序 的 整 
个 生命 期 (全 局 作用 域 )，、 即 ， 它 使 得 整个 程序 都 能 见 到 该 变量 ,或 者 ， 在 可 见 性 规则 允许 一 
个 变量 庶 盖 另 一 个 变量 的 语言 中 ， 它 使 得 该 变量 在 未 被 遮盖 的 地 方 处 处 可 见 。 全 局 作用 域 的 例 
子 包 括 C 中 用 extern 声 明 的 变量 ， 以 及 Pascal 中 在 最 外 层 声 明 的 变量 。 

Fortran 有 公用 存储 类 ， 它 与 多 数 作 用 域 的 概念 不 同 之 处 在 于 ，Fortran 的 公用 对 象 在 多 个 程 
序 单元 可 见 ， 这 些 程序 单元 相互 并 无 候 套 ， 并 且 这 些 对 象 可 以 有 不 同 的 名 字 。 例 如 ， 假 设 在 子 
程序 £1 () 和 £2 () 中 分 别 有 如 下 公用 说 明 : 





O 在 许多 语言 中 ， 如 C， 变 量 的 作用 域 在 代码 中 从 它 的 声明 点 开始 ， 一 直 延 续 到 程序 单元 的 结束 ; 而 另 一 些 语 
言 ， 如 PL/A， 变 量 的 作用 域 包含 整个 相关 的 程序 单元 。 





a 


common /blockl/i1,j1 


和 

common /block1/i2,j2 
则 变量 i1 和 i2 在 它们 各 自 的 子 程序 内 引用 同一 个 存储 单元 ， 变 量 j1 和 j2 也 一 样 ， 并 且 它 们 的 
生命 期 是 程序 的 整个 执行 期 。 

有 些 语言 ， 如 C， 具 有 文件 或 模块 存储 类 ， 这 种 存储 类 使 得 变量 只 在 某 个 文件 或 模块 内 可 
见 ， 但 生命 期 为 程序 的 整个 执行 期 。 

大 多 数 语 言 支持 自动 存储 类 或 栈 存储 类 。 这 种 存储 类 将 变量 的 作用 域 指定 为 声明 它 的 程序 
单元 ， 生 命 期 是 该 程序 单元 的 特定 活跃 期 。 这 种 存储 类 也 可 与 过 程 相关 (如 Pascal)， 或 同时 与 
过 程 和 过 程 内 的 块 相关 (如 C 和 PL/I)。 

有 些 语 言 允 许 这 种 存储 类 ， 它 们 由 限定 前 面 所 述 的 存储 类 为 静态 的 而 来 。 例 如 ，C 人 允许 将 
变量 声明 成 static， 这 使 得 在 程序 的 整个 执行 期 内 都 保存 分 配给 该 变量 的 存储 空间 ， 即 使 它 
们 的 声明 在 某 个 函数 之 内 。 这 些 变量 只 能 在 该 函数 内 被 访问 ， 但 它们 的 值 从 函数 的 一 次 调用 一 
直 保存 到 下 一 次 调用 ， 就 像 Fortran 的 save 变 量 一 样 。 

有 些 语言 允许 数据 对 象 (有 几 种 语言 还 允许 变量 名 ) 具有 动态 生命 期 ， 即 从 它 的 【 隐 式 的 
或 显 式 的 ) 分 配点 开始 至 它 的 释放 点 结束 。 有 些 语言 ， 尤 其 是 LISP， 人 允许 动态 作用 域 
(dynamic scoping)， 即 作用 域 可 以 按照 调用 关系 供 套 而 不 是 静态 媒 套 。 在 动态 嵌 套 的 情况 下 ， 
如 果 过 程 f () 调用 g () mo O 内 使 用 了 未 加 声明 的 变量 x， 则 g ( ) 将 使 用 E ( ) 中 声明 的 x; 或 
者 ， 如 果 f () 也 没有 声明 x， 则 使 用 £ ( ) 的 调用 者 的 x， 如 此 递 推 ， 而 与 程序 的 静态 结构 无 关 。 

有 些 语言 ， 如 C， 有 显 式 的 volatile 存 储 类 修饰 符 ， 它 指出 声明 为 volati1le 的 变量 可 
能 会 异步 地 被 修改 ， 例 如 ， 被 IO 设备 修改 。 这 种 声明 限制 了 对 包含 访问 这 种 变量 的 结构 进行 
优化 。 


3.2 符号 属性 和 符号 表 项 


程序 中 的 每 一 个 符号 有 一 系列 相关 联 的 属性 ， 这 些 属性 既 来 源 于 源 语 言 的 语法 和 语义 ， 也 
来 源 于 程序 对 符号 的 具体 声明 和 使 用 。 典 型 的 属性 中 有 一 些 是 很 明显 的 , 如 符号 的 名 字 、 类 型 、 
作用 域 和 大 小 ; 其 他 一 些 属性 ， 如 符号 的 寻 址 方法 ， 则 不 是 很 明显 。 

本 节 试 图 枚 举 出 各 种 可 能 的 属性 ， 并 对 那些 不 太 明 显 的 属性 进行 解释 。 我 们 也 用 这 种 方式 
来 讲述 符号 表 的 内 容 ， 即 符号 表 项 。 符 号 表 项 (symbol- table entry) 以 一 种 便于 设置 和 查找 的 
方式 集中 了 具体 符号 的 各 种 属性 。 

表 3-1 列 出 了 符号 的 典型 属性 集合 。 为 了 便于 表示 压缩 的 和 非 压 缩 的 数据 ， 一 方面 提供 了 
size 和 boundary， 另 一 方面 又 提供 了 bitsize 和 bitbdry。 


表 3-1 符号 表 项 中 典型 的 域 





域 名 类 型 . 含 X 
name l 字符 串 符号 的 标识 符 
class 枚 举 存储 类 
volatile 布尔 值 被 异步 访问 的 量 
size 整数 字 节 大 小 
bitsize | 整数 非 整 字 节 数 时 的 位 大 小 
boundary 整数 字 节 对 齐 单位 


bitbdry 整数 非 整 字 节 数 时 的 位 对 齐 单位 
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( 续 ) 
域 名 类 型 È x 

type 枚 举 或 类 型 引用 源 语言 数据 类 型 

basetype 枚 举 或 类 型 引用 构造 类 型 的 元 素 

machtype H . 机 器 类 型 ， 它 与 源 语言 的 简单 
应 

nelts 整数 元 素 个 数 

register 布尔 值 若 该 符号 的 值 在 寄存 器 中 ， 其 

值 为 真 

reg 字符 申 包含 该 符号 值 的 寄存 器 名 字 

basereg + FF 计算 该 符号 的 地 址 所 使 用 的 基 
址 寄存 器 名 字 

disp 整数 该 符号 的 存储 单元 相对 基 址 寄 
存 器 之 值 的 位 移 





类 型 引用 (type referent) 或 者 是 一 个 指向 表示 构造 类 型 结构 的 指针 ， 或 者 是 表示 一 个 构造 
类 型 结构 的 名 字 (ICAN 中 没有 指针 ， 因 此 ， 我 们 将 使 用 后 者 )。 提 供 type、basetype 和 
machtype 使 得 我 们 对 如 下 的 Pascal 类 型 : 


array [1..3, 1..5] of char 


能 够 指明 其 type 域 是 一 个 诸如 t2 的 类 型 引用 ， 与 它 相 关联 的 值 是 <array, 2，[<1，3>， 
<1，5>]，char>， 指 明 其 basetype 域 为 char，machtype 域 为 值 byte。 此 外 ， 它 的 
nelts 的 值 是 15。basereg 和 aisp 域 的 存在 使 我 们 能 够 表示 : 为 了 访问 这 个 Pascal 数 组 的 起 
始 地 址 ， 如 果 basereg 是 r7，disp 是 8， 则 应 当 形 成 地 址 [r7+81。 

符号 表 记 录 最 复杂 的 方面 通常 是 type 属 性 的 值 。 一 般 说 来 ， 源 语言 类 型 由 预定 义 的 类 型 
(如 Pascal 的 integer、char、real 等 ) 和 构造 类 型 (如 Pascal 的 枚 举 、 数 组 、 记 录 和 集合 类 
型 ) 组 成 。 预 定义 的 类 型 可 以 用 枚 举 来 表示 ， 而 构造 类 型 则 可 用 元 组 来 表示 。 因 此 ，Pascal 类 
型 模板 


array ftl, ..., fn) of 0 


可 用 一 个 元 组 来 表示 ， 该 元 组 由 一 个 表示 其 构造 符 (array) WEA. SEXE Rael Bln 
一 维 的 一 个 序列 ， 以 及 基 类 型 :0 的 表示 组 成 ， 即 ICAN 元 组 


«array, n, [tl, ..., tn], 10» 
类 似 地 ， 记 录 类 型 模板 
record fl:t1;...;fn:tn end 


可 以 用 这 样 一 个 元 组 来 表示 ， 该 元 组 的 组 成 是 : 一 个 表示 其 构造 符 (record) 的 枚 举 值 、 域 
的 个 数 以 及 域 标识 符 记 和 类 型 4 组 成 的 偶 对 的 一 个 序列 ， 即 ， 

«record, n, [«fl, ti», ..., «fn, tn>]> 

在 类 型 定义 中 使 用 正在 构造 的 这 个 类 型 的 名 字 是 通过 引用 它 的 类 型 定义 来 表示 的 。 作 为 一 
个 具体 的 例子 ， 考 虑 图 3-1a 中 给 出 的 Pascal 类 型 声明 ， 图 3-1lb 是 它们 的 ICAN 表 示 。 注 意 ， 它 们 
是 递归 的 : t2 的 定义 包含 了 对 t2 的 引用 。 
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34 R3* 


ti = array [0..5,1..10] of integer; 
t2 = record 
t2a: integer; 


t2b: ft2; ti = (array,2,[(0,55,41,105] , integer? 


t2 = <record,3, [(t2a, integer), 《t2b, (pointer,t255, 
(t2c, (array,1,[¢1,3>],char>>]> 
t3 = <array,1,[<1,100>] ,t2> 


t2c: array [1..3] of char; 
end; 
t3 = array [1..100] of t2; 





b) 
图 3-1 a) 一 组 Pascal 类 型 声明 ，b) 它们 的 ICAN 表 示 
我 们 知道 ， 在 所 有 语言 中 ， 预 定义 的 类 型 都 是 全 局 的 ， 而 用 户 定义 的 类 型 遵循 与 变量 标识 
符 相 同 的 作用 域 规则 。 所 以 ， 可 以 用 与 后 面 将 讨论 的 局 部 和 全 局 符号 表 结 构 相 同 的 类 型 表 (或 
图 ) 来 表示 它们 。 
3.3 局 部 符号 表 管 理 


下 面 我 们 讨论 如 何 管理 特定 过 程 的 局 部 符号 表 ， 这 是 任何 代码 生成 方法 都 会 遇 到 的 一 个 基 
本 问题 。 . 
下 面 是 一 组 创建 、 释 放 和 管理 符号 表 及 其 表 项 的 过 程 接口 (SymTab 是 表示 符号 表 的 类 型 ， 
Symbol 是 符号 的 类 型 ): 
New Sym Tab: SymTab-SymTab 
创建 一 个 新 的 局 部 符号 表 ， 给 定 的 符号 表 作为 其 父亲 ; 或 者 ， 如 果 没 有 给 定 符 号 表 的 话 ， 其 父 
亲 为 nil (参见 3.4 节 全 局 符号 表 结 构 的 讨论 ) ， 并 返回 新 的 〈 空 的 ) 局 部 符号 表 。 
Dest Sym Tab: SymTab- SymTab 
释放 当前 局 部 符号 表 ， 并 返回 它 的 父亲 (或 nil1， 如 果 没 有 父亲 )。 
Insert Sym: SymTab x Symbol- boolean 
插入 给 定 符号 的 符号 表 项 至 指定 的 符号 表 ， 并 返回 true; 或 者 ,如 果 该 符号 已 经 在 表 中 ， 则 不 
插入 新 项 ， 然 后 返回 false。 
Locate Sym: SymTab x Symbol-^boolean 
在 符号 表 中 查找 给 定 的 符号 ， 如 果 它 在 表 中 则 返回 true; 否则 返回 false。 
Get Sym Attr: SymTab x Symbol x Attr 一 Value 
返回 指定 符号 表 中 与 指定 符号 的 指定 属性 相连 的 值 ， 前 提 是 此 符号 在 表 中 ; 否则 ， 返 回 nil1。 
Set, Sym Attr: SymTab x Symbol x AttrxValue-boolean 
如 果 指 定 的 符号 在 指定 的 符号 表 中 ， 则 为 其 指定 属性 设置 指定 值 ， 并 返回 true; 否则 返回 
false; 表 3-1 中 列 出 的 域 都 视 为 是 属性 ， 如 需要 还 可 以 有 其 他 属性 。 
Next, Sym: SymTab x Symbol ~ Symbol 
按 某 种 顺序 查找 符号 表 ， 返 回 跟 在 第 二 个 参数 指定 符号 之 后 的 那个 符号 ; 当 第 二 个 参数 为 ni1 
时 ， 它 返回 符号 表 的 第 一 个 符号 ， 或 者 如 果 符 号 表 为 空 ， 返 回 ni1。 当 第 二 个 参数 设置 为 符号 
表 中 的 最 后 一 个 符号 时 ， 也 返回 nil。 
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More Syms: SymTab:xSymbol-boolean 


如 果 存 在 多 个 要 查看 的 符号 ， 返回 true; 否则 返回 false; 如 果 符 号 参数 为 nil， 当 符号 表 
非 空 时 它 返 回 true， 如 果 符 号 表 为 空 ， 它 返回 false。 

注意 ， 在 Get_Sym_Attr () 和 Set_Sym_Attr () 定义 中 类 型 Value 的 用 法 。 我 们 想 让 它 
成 为 这 样 一 个 联合 类 型 ， 这 个 联合 类 型 包含 了 各 种 属性 可 能 具有 的 所 有 类 型 。 还 要 注意 的 是 ， 
最 后 两 个 例 程 可 按 下 面 的 方法 用 于 逐个 查看 符号 表 中 的 符号 : 


while More Syus (symtab,s) do 
s := Next. Syn(symtab,s) 
if s * nil then 
process symbol s 
od fi 
设计 符号 表 时 主要 的 考虑 是 要 能 使 符号 和 属性 的 插入 和 提取 都 尽 可 能 地 快 。 我 们 本 可 以 将 
符号 表 构 造成 由 表 项 组 成 的 一 维 数组 ， 但 那样 会 使 得 查找 相当 慢 。 另 外 有 两 种 选择 ， 即 平衡 二 
叉 树 或 散 列表 ， 二 者 都 提供 了 快速 的 插入 、 查 找 和 提取 ， 但 在 保持 树 的 平衡 和 计算 散 列 值 上 会 
有 一 些 代 价 。 如 后 面 3.4 节 将 讨论 的 ， 一 般 更 好 的 方法 是 采用 对 每 一 个 散 列 值 带 有 一 系列 项 的 
散 列 表 。 对 于 诸如 Modula-2、Mesa、Ada 和 面向 对 象 语言 ， 最 适合 于 处 理 作用 域 规则 的 符号 表 
实现 方法 是 将 散 列 与 数组 结合 起 来 使 用 。 图 3-2 给 出 了 说 明 这 种 符号 表 是 如 何 组 织 的 示意 图 
(“项 i. j" 表示 在 第 头 散 列 链 中 的 第 /项 )。 所 选择 的 散 列 函数 应 当 使 标识 符 相 对 平均 地 分 布 于 
各 个 散 列 值 。 





{fin 





散 列 值 符号 表 项 
图 3-2 每 一 个 散 列 值 具有 散 列 桶 链 的 局 部 符号 散 列表 


3.4 全 局 符号 表 结构 


源 语 言 的 作用 域 和 可 见 性 规则 隐 含 地 确定 了 全 局 符号 表 的 结构 。 对 于 许多 语言 ， 如 
ALGOL 60、Pascal 和 PL/I， 作 用 域 规则 具有 将 整个 全 局 符号 表 构 造成 其 结 点 是 局 部 符号 表 的 一 
棵 树 的 作用 ， 其 中 ， 树 根 是 具有 爹 局 作用 域 的 局 部 表 ， 而 那些 被 途 套 其 内 的 作用 域 的 局 部 表 则 
作为 包含 它们 的 作用 域 对 应 表 的 儿子 。 因 此 ， 图 3-3 所 示 的 一 段 Pascal 程 序 结构 ， 其 对 应 的 全 局 
符号 表 结 构 如 图 3-4 所 示 。 
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不 过 ， 对 于 这 种 语言 ， 编 译 器 可 以 采用 更 简单 的 
结构 。 因 为 在 编译 过 程 的 任意 一 点 ， 所 处 理 的 只 是 这 
棵 树 上 的 某 个 特定 结 点 ， 并 且 只 需要 访问 从 那个 结 点 
开始 至 根 结 点 路 径 上 的 符号 表 。 于 是 ， 用 栈 来 表示 一 
条 路 径 上 包含 的 局 部 符号 表 就 足够 了 。 当 进入 新 的 较 
深 一 层 的 幅 套 作用 域 时 ， 将 其 局 部 表 压 入 栈 中 ， 而 当 
退出 此 作用 域 时 ， 则 从 栈 中 弹出 它 的 局 部 表 。 图 3-5 
展示 了 处 理 图 3-3 程 序 期 间 出 现 的 全 局 符号 表 序列 。 
这 样 ， 任 何在 当前 局 部 作用 域 找 不 到 的 变量 都 可 以 在 
其 祖先 作用 域 中 查找 。 例 如 ， 考 查 过 程 i () 。 其 内 引 
用 的 变量 b 是 在 i 0 中 声明 的 局 部 变量 bp， 而 a 引用 的 
是 在 g () 中 声明 的 局 部 变量 b，c 引 用 的 是 在 最 外 层 作 
Filme () 中 声明 的 全 局 变量 c。 

局 部 符号 表 栈 可 以 用 一 个 数组 组 成 的 栈 和 一 组 散 
列表 来 实现 ， 数 组 组 成 的 栈 和 散 列 表 的 实现 方法 如 
3.3 节 所 述 。 更 好 的 一 种 结构 是 使 用 两 个 栈 ， 一 个 存 
放 标 识 符 ， 另 一 个 指明 每 一 张 局 部 表 的 基 址 (这 个 栈 
叫做 块 栈 ) ， 并 且 同 前 面 一 样 ， 辅 以 一 张 散 列表 来 散 
列 符号 名 。 如 果 采 用 这 种 方法 ， 则 过 程 
New_Sym_Tab() 压 一 个 新 项 至 块 栈 ， 
Insert_Sym() 在 符号 栈 顶 添加 一 项 并 将 它 链 在 散 
列 链 的 开始 ，Locate_Sym() 只 需 沿 符号 的 散 列 链 
进行 查找 。Dest_Sym_Tab () 从 所 有 链 中 删除 块 栈 
当前 登记 项 之 上 的 那些 登记 项 ， 那 些 登 记 项 都 位 于 链 
的 前 面 ， 并 由 此 而 释放 块 栈 栈 顶 的 登记 项 。 图 3-6 给 
出 了 这 种 作用 域 模型 的 例子 ， 其 中 假定 E 和 e 具 有 相 
同 的 散 列 值 。 

余下 的 一 个 问题 是 如 何 构造 那些 不 符合 前 面 所 讨 
论 的 树 结构 的 作用 域 ， 例 如 Modula-2 的 import 和 
export、RAda 的 package 和 use 语 句 、C++ 的 继承 
机 制 等 。 对 于 前 两 种 语言 ， 编 译 系统 必须 提供 一 种 机 
制 分 别 用 于 保存 和 提取 关于 模块 和 包 的 定义 。 下 面 要 
讨论 的 作用 域 模式 基于 Graham、Joy 和 
Roubine[GraJ79] 提 出 的 开放 作用 域 和 闭 作用 域 的 区 
别 。 对 于 开放 作用 域 (open scope)， 可 见 性 规则 直接 
对 应 于 作用 域 的 供 套 , 而 对 于 闭 作 用 域 (close scope), 
可 见 性 规则 在 程序 中 显 式 地 指明 。 对 于 开放 作用 域 ， 
用 前 面 描述 的 机 制 就 够 了 。. 


program e; 
var a, b, c: integer; 
procedure f; 
var a, b, c: integer; 
begin 


a :=b+C 
end; 
procedure g; 
var a, b: integer; 
procedure h; 
var c, d: integer; 
begin 
c:-actd; 
end; 
procedure i; 
var b, d: integer; 
begin 
b :s a+c 
end; 
begin 
b:=a+c 
end; 
procedure j; 
Var b, d: integer; 





图 3-3 REA HH Pascale 


eC )’s symtab 





integer a 
integer b 
integer c 







£C )’s symtab gC )’s symtab 3C Y's symtab 
integer a 
integer b 
integer c 


integer a integer b 
integer b integer d 





hC )'s symtab iC )’s symtab 


图 3-4 图 3-3 的 Pascal 程 序 对 应 的 
局 部 符号 表 树 


但 是 ， 闭 作用 域 可 以 使 得 一 组 名 字 能 在 某 个 另外 的 作用 域 中 可 见 ， 而 与 嵌 套 无 关 。 例 如 ， 
在 Modula-2 中 ， 一 个 模块 可 以 包含 一 列 它 要 导出 的 对 象 名 ， 其 他 模块 可 以 通过 明显 地 列 出 它们 
而 导入 所 有 名 字 或 其 中 的 任何 名 字 。Ada 的 包机 制 允 许 一 个 包 导 出 一 组 对 象 ， 并 允许 其 他 模块 
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通过 明显 地 指明 要 使 用 这 个 包 而 导入 它们 。 这 两 种 作用 域 机 制 和 其 他 的 显 式 作用 域 机 制 可 采用 
栈 十 散 列 符号 表 模 型 ， 通 过 为 每 个 标识 符 保存 一 张 表 以 记录 该 标识 符 可 见 的 作用 域 的 层次 号 来 
实现 。 这 样 做 可 能 易于 维护 ， 不 过 也 可 以 用 空间 开销 较 少 的 方法 来 实现 。 


正 编 译 的 . 
子 程序 QU) fC) gC) nO) iC) j() eO 


图 3-5 在 编译 图 3-3 所 示 Pascal 代 码 过 程 中 出 现 的 符号 表 栈 





图 3-6 带 有 块 栈 的 散 列 全 局 符号 表 


这 种 简化 源 于 入 们 意识 到 在 这 种 表 中 层 号 一 定 是 连续 的 ， 因 为 作用 域 能 导出 一 个 标识 符 ， 
仅 当 该 标识 符 在 其 内 是 可 见 的 ; 能 导入 一 个 标识 符 仅 当 该 标识 符 是 显 式 说 明 的 ， 或 在 包含 它 的 
作用 域 中 是 可 见 的 。 如 果 保证 每 个 登记 项 在 可 见 它 的 最 外 层 作用 域 退出 的 同时 也 从 符号 表 中 被 
删除 ， 则 处 理 还 可 以 进一步 简化 。 我 们 只 需要 记录 它们 在 其 中 可 见 的 最 内 层 作 用 域 的 层 号 ,并 
在 进入 和 退出 一 个 作用 域 时 更 新 此 层 号 。 这 种 方法 能 快速 实现 作用 域 的 登记 、 符 号 的 插入 、 属 
性 的 设置 和 提取 等 操作 ， 但 在 退出 作用 域 时 会 需要 查找 整个 符号 表 ， 以 找到 那些 需要 删除 的 登 
记 项 。 

为 适应 闭 作 用 域 而 对 栈 十 散 列表 模式 所 作 的 最 有 效 的 修改 方法 是 ， 使 用 栈 结构 来 反映 符号 
说 明 所 在 的 作用 域 或 导出 此 符号 的 最 外 层 作 用 域 ， 同 时 用 散 列 结构 来 实现 可 见 性 规则 。 它 按 这 
样 一 种 顺序 重 排 散 列 链 中 的 元 素 : 将 要 插入 的 导入 符号 插入 在 链 的 前 部 ， 之 后 设置 它 的 最 内 层 
作用 域 层 号 ， 对 该 作用 域 导 出 的 每 一 个 符号 也 按 同 样 的 顺序 重 排 ， 然 后 将 局 部 说 明 的 符号 插入 
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在 那些 已 在 散 列 链 中 的 符号 之 前 。 读 者 可 以 证 明 ， 在 每 一 条 链 中 的 符号 保持 了 反映 可 见 性 规则 


的 顺序 。 当 退出 一 个 作用 域 时 ， 我 们 必须 从 散 列 program 

链 中 删除 那些 非 导出 的 局 部 符号 ， 这 些 符号 登记 var a, b, c, d 
项 的 作用 域 层 号 与 当前 作用 域 的 相同 。 如 果 一 个 procedure £C) 
符号 是 在 包含 当前 作用 域 的 外 层 作用 域 中 说 明 的 ， procedure g( ) 
或 是 导出 到 这 个 作用 域 的 (从 这 个 符号 的 栈 结构 var d 


import a, b from P 


可 以 判明 ) ， 该 符号 将 保留 在 散 列 链 中 ， 并 且 其 最 
内 层 作 用 域 层 号 减 1 否则 ， 从 散 列 表 中 删除 此 符 
号 。 

作为 一 个 例子 ， 考 虑 图 3-7 所 示 代 码 。 在 刚 进 Pb 
入 过 程 £() 时 ,符号 表 如 图 3-8a 所 示 。 在 刚 进入 
g () 时 ， 有 新 说 明 的 变量 9 和 从 包 P 中 导入 的 变量 a 
Alb (注意 ， 我 们 假设 b 和 d 具 有 相同 的 散 列 值 )， 
由 此 新 形成 的 符号 表 结 构 如 图 3-8b 所 示 。 注 意 在 图 
a) 中 原来 包含 两 个 b 和 一 个 d 的 散 列 链 已 被 扩展 成 
导入 的 符号 b 在 前 ， 后 随 新 说 明 的 符号 Q， 然 后 才 
是 以 前 登记 的 那 三 个 符号 。 最 内 层 层 号 也 已 经 调 
整 成 指明 导入 的 符号 a 和 b, g () 的 符号 Q， 以 及 全 
局 符号 a 都 是 g O 中 可 见 的 符号 。 为 了 回 到 以 前 的 
状态 ， 即 图 a) 表 示 的 状态 ， 只 要 从 块 栈 中 弹出 栈 顶 
登记 项 ， 并 从 符号 栈 中 弹出 它 所 指 登记 项 之 上 的 
所 有 符号 项 ， 并 调整 散 列 链 反映 这 些 已 删除 的 符 
号 。 因 为 我 们 在 进入 g () 时 并 没有 为 闭 作 用 域 重 排 
散 列 链 ， 因 此 这 就 已 经 将 符号 表 恢 复 到 了 原状 。 

为 了 支持 全 局 符号 表 结 构 ， 我 们 在 3.3 节 所 描 
述 的 接口 上 增加 了 两 个 子 程序 : 

Encl Sym Tab: SymTab x Symbol > SymTab 
返回 说 明了 第 二 个 参数 的 最 内 层 的 符号 表 ， 如 果 
无 此 符号 表 ， 则 返回 nil。 

Depth, Sym Tab: SymTab ~ integer 
返回 给 定 符号 相对 当前 符号 表 的 深度 。 此 时 约定 
当前 符号 表 的 深度 为 0。 BOE BB Yeh 


3.5 存储 绑 定 和 符号 寄存 器 图 3-8 a) 含 最 内 层 层 号 的 散 列 全 局 符号 表 ， 


AAIR (storage binding) 将 变量 名 转换 为 人 
地 址 ， 即 给 变量 分 配 地 址 。 这 是 代码 生成 之 中 或 
之 前 必须 进行 的 处 理 过 程 。 在 我 们 的 中 间 语言 层次 系统 中 ， 存 储 绑 定 是 MIR 至 LIR 转 换 过 程 的 
一 部 分 (参见 第 4 意 )， 它 除了 将 名 字 转 换 为 地 址 之 外 ， 还 将 MIR 的 赋值 展开 为 取 数 、 运 算 和 存 
储 指令 ， 并 且 展 开 调用 为 一 系列 的 指令 。 

每 个 变量 都 被 指定 个 适合 于 其 存储 类 的 地 址 ， 或 更 确切 地 说 ， 是 指定 一 种 手 址 方法 。 
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我 们 采用 后 一 个 术语 。 因 为 ， 给 过 程 内 的 局 部 变量 指定 的 不 是 固定 的 机 器 地 址 (或 相对 于 一 个 
模块 的 基 址 的 固定 地 址 )， 而 是 相对 某 个 寄存 器 的 偏 移 来 访问 的 一 个 栈 地 址 ， 这 个 寄存 器 的 值 
通常 随 过 程 调用 而 改变 。 

对 于 存储 绑 定 ， 变 量 分 为 四 种 主要 的 类 别 : 全 局 变量 、 全 局 栈 变量 、 栈 变量 和 栈 静 态 变量 。 
在 那些 允许 导入 变量 或 导 和 整个 作用 域 的 语言 中 ， 我 们 还 必须 考虑 导入 变量 或 导入 作用 域 的 情况 。 

全 局 变量 和 具有 静态 存储 类 的 变量 通常 分 配 的 是 固定 的 可 重 定位 地 址 ， 或 是 相对 一 个 基 址 
寄存 器 的 偏 移 ， 这 个 基 址 寄存 器 称 为 全 局 指针 ”。 有 些 RISC 编 译 器 ， 如 MIPS 公 司 为 MIPS 体 系 
结构 提供 的 编译 器 ， 对 全 局 变量 尽 可 能 多 地 使 用 相对 基 址 寄存 器 的 偏 移 地 址 ， 以 便 使 所 有 落 在 
有 效 范 围 内 的 全 局 变量 都 能 用 单条 指令 来 访问 。 栈 变量 分 配 的 是 相对 栈 指 针 或 帧 指针 的 偏 移 地 
址 ， 因 此 它们 可 以 随 过 程 的 调用 而 出 现 或 消失 ， 而 且 它 们 的 位 置 也 会 随 调 用 不 同 而 改变 。 

在 许多 语言 中 ， 堆 对 象 的 空间 是 动态 分 配 的 ， 并 通过 存储 分 配子 程序 设置 的 指针 来 访问 。 
但 是 ， 在 有 些 语言 中 ， 如 LISP， 这 种 对 象 可 以 是 “interned”， 即 这 些 空间 有 名 字 ， 并 可 通过 名 
字 直 接 访问 它们 。 

另 一 种 处 理 栈 变量 (在 有 些 情况 下 也 用 于 全 局 变量 ) 的 方法 是 给 它们 分 配 寄存 器 而 不 是 存 
储 单元 。 当 然 ,存放 在 寄存 器 中 的 变量 通常 不 能 通过 索引 来 寻 址 ,因此 这 种 方法 不 能 用 于 数组 。 
同样 ， 在 代码 生成 之 前 或 代码 生成 过 程 中 ， 一 般 也 不 能 给 很 多 变量 分 配 寄存 器 ， 因 为 只 有 数量 
有 限 的 可 用 寄存 器 。 但 是 我 们 可 以 给 标量 变量 指定 符号 寄存 器 ， 这 种 符号 寄存 器 没有 个 数 的 限 
制 ， 它 只 是 一 个 名 字 。 然 后 ， 在 编译 过 程 的 较 后 阶段 再 为 这 个 名 字 分 配 真实 的 寄存 器 或 存储 单 
元 。 采 用 图 着 色 全 局 寄存 器 分 配 算法 (在 16.3 节 讨论 ) 的 编译 器 就 使 用 了 这 种 方法 。 符 号 寄存 
器 的 分 配 简单 地 通过 累加 计数 器 来 实现 ， 第 一 个 变量 分 配 s0， 下 一 个 为 s1， 依 次 类 推 。 寄 存 
器 分 配 过 程 还 能 够 将 已 分 配 存储 单元 的 若干 变量 封装 到 几 个 寄存 器 中 ， 并 由 此 删除 相关 的 存储 
器 访问 ， 就 像 16.4 节 基于 优先 级 的 图 着 色 方 法 所 做 的 那样 。 

图 3-9 给 出 了 一 个 名 为 Bind_Local_vVars () 的 ICAN 子 程序 。 该 程序 使 用 3.3 节 和 3.4 节 描 
述 的 符号 表 管 理子 程序 来 给 变量 绑 定 存储 单元 。 符 号 表 项 中 至 少 包 含 表 3-1 中 描述 的 域 。 

procedure Bind Local, Vars(symtab,Initdisp) 
symtab: in SymTab 
Initdisp: in integer 
begin 
symclass: enum {local, local static) 
symbasetype: Type 
i, symsize, staticloc := 0, stackloc := Initdisp, 
symnelts: integer 
S := nil: Symbol 
while More Syms(symtab,s) do 
s := Next Sym(symtab,s) 
symclass := Get Sym Attr(symtab,s,class) 
symsize :- Get Sym Attr(symtab,s,size) 
symbasetype := Get_Sym_Attr(symtab,s,basetype) 
case symclass of 
local: if symbasetype = record then 


symnelts := Get Sym Attr(symtab,s,nelts) 
for i :- 1 to symnelts do 





图 3-9 局 部 变量 存储 绑 定 子 程序 


O 在 位 置 无 关 代码 中 使 用 后 一 种 方法 ， 参 见 5.7 节 。 
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symsize := Get Sym Attr(symtab,s,(i,size)) 
|} allocate local symbols at negative offsets 
|| from the frame pointer 
stackloc -= symsize 
stackloc :- Round, Abs, Up(stackloc,symsize) 
Set. Sym Attr(symtab,s,reg,"fp") 
Set Sym Attr(symtab,s,(i,disp?,stackloc) 
od 
else 
stackloc -= symsize 
stackloc := Round, Abs Up(stackloc,symsize) 
Set Sym Attr(symtab,s,reg,"fp") 
Set Sym Attr(symtab,s,disp,stackloc) 
fi 
local static: 
if symbasetype = record then 
symnelts := Get Sym Attr(symtab,s,nelts) 
for i :- 1 to symnelts do 
symsize := Get Sym Attr(symtab,s,(i,size)) 
|| allocate local static symbols at positive offsets 
||. from the beginning of static storage 
staticloc := Round Abs.Up(staticloc,symsize) 
Set. Sym Attr(symtab,s,(i,disp?,staticloc) 
Staticloc += symsize 
od 
else 
staticloc := Round_Abs_Up(staticloc, symsize) 
Set Sym Attr(symtab,s,disp,staticloc) 
staticloc += symsize 
fi 
esac 
od 
end || Bind.Local.Vars 


procedure Round Abs Up(m,n) returns integer 

m, n: in integer 
begin 

return sign(m) * ceil(abs(float(m)/float(n))) * abs(n) 
end || Round, Abs. Up 





图 3-9 (fX) 


Bind Local, Vars () 给 每 个 静态 变量 指定 一 个 位 移 ， 给 每 个 分 配 在 栈 中 的 变量 指定 一 
个 位 移 ， 并 用 屿 指针 作为 其 基 址 寄存 器 。 对 于 记录 ， 则 从 第 一 个 元 素 到 最 后 一 个 元 素 ， 依 次 给 
每 个 元 素 指定 位 移 和 基 址 寄存 器 。initdisp 的 值 是 在 栈 帧 内 能 够 分 配 的 第 一 个 位 置 的 位 移 。 
我 们 假定 initaisp、 栈 帧 的 基 址 以 及 静态 存储 区 都 是 双 宇 对 齐 的 。 注 意 ， 这 里 同 后 面 第 5 章 
所 讨论 的 一 样 ， 我 们 给 局 部 变量 分 配 的 是 相对 fp 的 负 偏 移 ， 给 静态 变量 分 配 的 是 正 偏 移 ， 但 
忽略 了 5.1 节 所 讨论 的 封装 记录 的 可 能 性 。Round_Abs_Up O 用 来 保证 适当 的 边界 对 齐 。 函 数 
abs () 返回 其 参数 的 绝对 值 ， 函 数 ceil 返 回 大 于 或 等 于 其 参数 的 最 近 整 数 。 符 号 寄存 器 的 分 
配 实际 上 与 此 相同 ， 而 全 局 变量 的 处 理 也 类 似 ， 不 同 的 只 是 它 可 能 需要 跨 多 个 编译 单元 ， 这 取 
决 于 源 语言 的 结构 。 

图 3-10a 中 的 MIR 代 码 段 是 一 个 存储 绑 定 的 例子 ， 其 中 a 是 全 局 整 变量 ，b 是 局 部 整 变 量 ， 
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而 c[0. .9] 是 一 个 局 部 整数 组 变量 。 令 gp 是 指向 全 局 区 的 寄存 器 ，fp 是 栈 的 帧 指针 。 于 是 可 
以 分 配 gp 之 后 8 字 节 位 移 的 地 址 给 a， 分 配 fp-20 给 pb，fp-60 给 c (注意 ， 取 c [1] 导致 从 位 置 
fp-56 取 数 ; 这 是 因为 c[0] 被 分 配 在 fp-60 并 且 c UI 的 元 素 的 字 长 为 4 字 节 ) ; 在 这 段 MIR 代 
码 中 给 每 一 个 变量 绑 定 地 址 将 产生 图 3-10b 所 示 的 LIR 代 码 (当然 ， 第 4 条 指令 是 宛 余 的 ， 因 为 
它 装 入 的 值 是 刚 由 前 一 条 指令 存 和 人 的。MIR-LIR 转 换 器 能 识别 这 种 情形 ,' 否 则 这 一 任务 可 遗留 
给 后 面 的 优化 ， 如 8.11 节 所 述 )。 

ri < [gp+8] 
r2 < r1*2 
[gp*8] < r2 


beat c[1] r3 € [gp+8] 
r4 «- [fp-56] 
rb & r3 + r4 


[fp-20] < r5 


si < [fp-56] 
s2 € s0 + s1 





a) b) c) 


图 3-10 a) MIR 代 码 段 和 到 LIR 的 两 种 转换 ， 其 中 b) 将 变量 名 与 存储 位 置 进行 了 绑 定 ， 
c) 将 简单 变量 与 符号 寄存 器 进行 了 绑 定 


如 果 使 用 符号 寄存 器 ，b 将 得 到 一 个 符号 寄存 器 ， 比 如 说 s2 ， 全 局 变量 a 也 可 以 得 到 一 个 ， 
这 取决 于 寄存 器 分 配器 是 否 给 全 局 变量 分 配 符号 寄存 器 。 我 们 这 里 假定 它 分 配 ， 所 产生 的 LIR 
代码 如 图 3-10c 所 示 。 注 意 ， 没 有 给 c 【11] 分 配 符号 寄存 器 ， 因 为 它 是 一 个 数组 元 素 。 

将 局 部 变量 分 配 到 栈 帧 有 若干 种 可 能 的 方法 。 我 们 可 以 简单 地 为 变量 连续 分 配 栈 帧 内 的 单 
元 ,每 个 变量 都 有 足够 容纳 它们 的 空间 ， 但 这 要 求 将 变量 放置 在 适合 于 快速 访问 它们 的 存储 边 
界 上 一 例如 ， 如 果 将 一 字 大 小 的 对 象 放置 在 半 字 边界 上 ， 则 在 最 坯 情况 会 需要 两 条 取 半 字 的 
取 数 指令 、 一 条 移 位 指令 和 一 个 “或 ”操作 ， 而 不 是 一 条 取 整 字 的 指令 。 如 果 没 有 取 半 字 的 指 
令 ， 如 在 Alpha 体 系 结构 中 ， 还 会 需要 “与 ”操作 。 通 过 保证 每 一 个 栈 帧 开始 于 双 字 边界 ， 并 
在 对 象 之 间 保留 间隙 ， 使 得 它们 开始 于 适当 的 边界 ， 我 们 可 以 解决 这 一 问题 。 但 这 样 做 浪费 了 
空间 ， 这 可 能 是 严重 的 ， 因 为 RISC 机 器 的 取 数 和 存储 指令 只 提供 较 短 的 偏 移 ， 而 CISC 机 器 的 
指令 可 能 需要 使 用 较 长 的 偏 移 ， 并 且 可 能 影响 高 速 缓存 的 性 能 。 

通过 按 变量 所 需要 的 对 齐 方式 由 大 至 小 地 对 它们 排序 ， 并 保证 每 一 个 栈 帧 都 对 齐 在 提供 最 
有 效 访问 的 存储 边界 上 ， 我 们 可 以 实现 更 好 的 存储 绑 定 。 如 果 栈 帧 的 开始 是 双 字 对 齐 的 ， 我 们 
可 以 首先 从 栈 帧 起 始 处 安排 所 有 要 求 双 字 对 齐 的 对 象 ， 后 面 接 TET 
着 安排 要 求 字 对 齐 的 对 象 ， 然 后 是 半 字 对 象 ， 最 后 是 字 节 对 象 ， double float xi 
这 就 保证 了 每 一 个 变量 都 在 适当 的 边界 上 。 例 如 ， 已 知 图 3-11 所 short int j; 

示 的 C 变 量 声明 ， 我 们 可 以 按 它们 的 声明 顺序 存储 它们 ， 如 图 float y; 

3-12a 所 示 ， 也 可 以 按 大 小 排序 方式 存储 它们 ， 如 图 3-12b 所 示 。 E91 C 局 部 变量 声明 
注意 ， 对 它们 排序 不 仅 使 得 访问 它们 更 快 ， 而 且 节省 空间 。 这 种 排序 是 安全 的 ， 因 为 我 们 知道 
的 语言 定义 中 ， 没 有 一 种 语言 有 依赖 于 局 部 变量 存储 安排 的 语义 。 

第 三 种 方法 是 按 大 小 排序 ， 但 先 分 配 最 小 的 ， 并 遵循 边界 对 齐 要 求 。 这 可 能 需要 比 前 一 种 
方法 稍 多 一 点 的 空间 ， 但 对 于 大 栈 帧 而 言 ， 它 能 使 更 多 的 变量 用 较 短 的 偏 移 来 访问 。 

如 何 存储 较 大 的 局 部 数据 结构 (如 数组 ) 需要 更 多 的 考虑 。 我 们 可 以 直接 将 它们 存储 在 栈 
帧 内 ， 有 些 编译 器 就 是 这 样 做 的 ， 但 这 可 能 导致 访问 数组 元 素 和 其 他 变量 所 需要 的 偏 移 量 超过 
指令 直接 数 域 所 能 表示 的 值 。 注 意 ， 如 果 把 较 大 的 对 象 放 在 栈 帧 起 始 处 ， 则 其 他 的 变量 就 会 需 
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要 相对 fp 的 较 大 的 偏 移 ， 而 如 果 把 它们 放 在 栈 帧 的 尾部 ， 相 对 sp 又 会 发 生 同样 的 情况 。 我 们 本 
可 以 分 配 第 二 个 基 寄 存 器 (或 者 更 多 寄存 器 ) 来 扩充 栈 帧 ， 但 即使 那样 也 不 能 使 它 足 够 大 。 一 
种 可 选 的 方法 是 分 配 较 大 的 对 象 于 栈 帧 的 中 间 (或 其 他 地 方 )， 并 存储 指向 它们 的 指针 于 栈 帧 内 
相对 fp 较 小 的 偏 移 处 。 为 了 访问 一 个 数组 ， 这 会 需要 额外 的 一 条 取 数 指令 ， 但 这 条 取 数 指令 的 
开销 可 以 被 多 次 的 数组 访问 而 冲销 ， 尤其 是 当 数 组 在 一 个 或 多 个 循环 之 内 频繁 使 用 时 





图 3-12 图 3-11 所 示 声 明 的 栈 帧 安排 ，a) 无 排序 但 有 边界 对 齐 ，b) 排序 偏 移 以 字 节 为 单位 ) 


3.6 生成 取 数 和 存 数 指令 的 方法 


为 了 具体 起 见 ， 从 现在 起 我 们 假定 生成 32 位 SPARC-V9 系 统 的 汇编 代码 ， 但 与 该 系统 不 同 
的 是 ， 我 们 使 用 平面 寄存 器 文件 而 不 是 寄存 器 窗口 。 

下 面 的 过 程 生成 取 值 到 寄存 器 的 取 指 令 和 将 计算 好 的 值 存储 至 存储 器 适当 位 置 的 存 指令 。 
它们 也 可 能 会 修改 对 应 的 符号 表 项 ， 以 反映 每 一 个 值 的 位 置 ， 即 这 个 值 是 否 在 寄存 器 中 以 及 在 
哪 一 个 寄存 器 ， 并 在 需要 时 生成 整数 寄存 器 与 浮 点 寄存 器 之 间 的 传送 指令 ， 以 便当 使 用 这 些 值 
时 它们 已 经 在 所 需要 类 型 的 寄存 器 中 。 


Sym to Reg: SymTabxVar ~ Register 


生成 一 条 从 变量 的 存储 位 置 取 数 至 适当 类 型 寄存 器 的 取 数 指令 , 寄存 器 可 能 是 一 个 寄存 器 、 
两 个 寄存 器 或 四 个 寄存 器 ， 并 返回 第 一 个 寄存 器 的 名 字 。 此 过 程 用 到 的 全 局 数据 类 型 和 结构 如 
图 3-13 所 示 ; Sym to. Reg O 的 一 个 直观 版 本 如 图 3-14 所 示 ， 该 过 程 使 用 的 附属 例 程 如 图 3-15 
所 示 。 变 量 G1oSymtab 以 全 局 符号 表 作 为 其 值 ， 变 量 StaticLinkcotfset 存 放 当 前 过 程 的 
静态 链 相 对 寄存 器 fp 的 偏 移 。 该 过 程 的 代码 用 到 了 下 面 的 函数 : 

1. Locate Sym(symtab, v) ， 如 果 变 量 v 在 符号 表 symtab 中 ， 返 回 true; 否则 返回 
false (参见 3.3 节 )。 

2. Encl Sym, Tab (symtab, v) 从 symtab 向 外 查找 ， 直 至 找到 含有 变量 v 的 符号 表 并 返回 
此 符号 表 ; 如 果 没 有 找到 ， 返 回 nil (23534). 

3. Depth, Sym Tab (symtabl1，symtab) 返回 从 当前 符号 表 symtab 到 包含 在 其 内 的 符号 表 
symtab1 之 间 的 深度 差 (参见 3.4 节 )。 

4.Get Sym Attr(symtab, v, attr) 返回 变量 v 在 符号 表 symtab 中 属性 attr 的 属性 值 (参见 
3.35). 

5. Short, Const (c) 如 果 c 能 用 13 位 (SPARC 短 常量 操作 数 的 长 度 ) 来 表示 ， 返 回 
true; 否则 返回 false。 

6. Gen Inst (opc, opds) 输出 一 条 具有 操作 码 cpc 和 参数 表 opds 的 指令 。 

7. Reg. Char (reg) 将 Registezr 操 作 数 re8 转 换 为 对 应 的 字符 串 。 

8. Find  Opcode (stype) 返回 数组 LdStType 中 具有 类 型 stype 的 登记 项 的 索引 。 
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Sym_to_Reg_Force : SymTab x Var x Register 


生成 从 变量 的 存储 位 置 取 数 至 所 命名 寄存 器 的 取 数 指 令 ， 寄 存 器 可 能 是 一 个 寄存 器 、 两 个 寄存 
器 或 四 个 寄存 器 。 这 个 例 程 可 以 强制 过 程 参 数 至 适当 的 寄存 器 。 


Alloc Reg: SymTabxVar > Register 


分 配 一 个 、 一 对 或 两 对 适当 类 型 的 寄存 器 来 存放 参数 指定 变量 的 值 ， 设 置 此 变量 的 符号 表 项 的 
reg 域 ， 除 非 它 已 经 分 配 过 寄存 器 ， 在 两 种 情况 下 均 返 回 第 一 个 寄存 器 的 名 字 。 


Reg to Sym: SymTabxRegister > Var 


生成 将 第 二 个 参数 的 值 (一 个 寄存 器 名 ) 存 至 变量 存储 单元 的 存储 指令 ， 图 3-14 给 出 了 
Reg_to_Sym() 的 直观 版 本 ， 它 使 用 了 图 3-13 中 给 出 的 全 局 类 型 和 数据 结构 ， 以 及 图 3-15 中 的 
附属 例 程 。 


Alloc. Reg Anon: enum(int, flt)xinteger > Register 
分 配 一 个 、 一 对 或 两 对 适当 类 型 的 寄存 器 (根据 第 二 个 参数 的 值 ， 它 可 以 是 1、2 或 4) ， 并 返回 
第 一 个 寄存 器 的 名 字 。 与 A11oc_Reg 不 同 ， 它 并 不 使 寄存 器 与 符号 相连 。 


Free Reg: Register - Ø 
将 参数 给 定 的 寄存 器 送 回 到 可 用 寄存 器 字 。 


SymType = enum (byte, uns byte, short, uns_short, int, 
uns int, long int, uns long int, float, dbl float, 
quad, float) 

LdStType = array [1::11] of record 

(type: SymType, 
LdOp, StOp: CharString) 




















LdStType := . 
|| types, load instructions, and store instructions 
[<type: byte, LdOp:"ldsb", StOp:"stsb">, 
<type:uns_byte, LdOp:"ldub", StOp:"stub">, 

<type: short, LdOp:"ldsh", StOp:"stsh">, 
<type:uns_short, LdOp:"1duh", StOp:"stuh">, 
<type:int, LdOp:"ldsw", StOp:"stew">, 
<type:uns_int, LdOp:"lduw", StOp:"stuw">, 
(type:long int, LdO0p:"ldd", | StOp:"std"5, 
(type:uns long int, LdOp:"ldd", StÜp:"std"5, 
(type:float, LdOp:"ldf",  StOp:"stf">, 
(type:dbl float, LdOp:"lddf", StOp:"stdf"5, 


(type:quad float, | LdOp:"ldgf", StOp: "stqf"5] 
GloSymtab: SymTab 
StaticLinkOffset: integer 
Depth: integer 


图 3-13 用 于 生成 存 取 指 令 的 全 局 类 型 和 数据 结构 


procedure Sym_to_Reg(symtab,v) returns Register 
symtab: in SymTab 
v: in Var 

begin 

symtabi: SymTab 

symdisp: integer 

Opcode: CharString 


图 3-14 取 一 个 变量 的 值 到 一 个 寄存 器 、 一 对 寄存 器 、 两 对 寄存 器 ， 
以 及 将 这 些 寄存 器 中 的 值 保存 到 变量 的 例 程 
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symreg: Register 

symtype: SymType 

symtabl := Find. Sym Tab(symtab,v) 

if Get Sym Attr(symtabi,v,register) then 
return Get Sym Attr(symtabl,v,reg) 


fi 
symtype := Get Sym Attr(symtabl,v,type) 
Opcode := LdStType(Find. Opcode(symtype)] .LdOp 
symreg := Alloc Reg(symtabi,v) 
symdisp := Get. Sym Attr(symtabi1,v,disp) 
|| generate load instruction and return loaded register 
Gen, LdSt (symtab1 , Opcode, symreg, symdisp, false) 
return symreg 
end |! Sym to. Reg 


procedure Reg. to Sym(symtab,r,v) 
symtab: in SymTab 
r: in Register 
v: in Var 
begin 
symtabi: SymTab 
disp: integer 
Opcode: CharString 
symtype: SymType 
Symtabl := Find Sym Tab(symtab,v) 
symtype := Get Sym Attr(symtabl,v,type) 
Opcode := LdStType[Find Üpcode(symtype)].StÜp 
symdisp := Get Sym Attr(symtabi,v,disp) 
11 generate store from register that is the value of r 
Gen. LdSt (symtab1,0pcode,r,symdisp,true) 
end || Reg.to Sym 





图 3-14  (£&) 


procedure Find Sym Tab(symtab,v) returns SymTab 
symtab: in SymTab 
v: in Var 
begin 
symtabi: SymTab 
|| determine correct symbol table for symbol 
|| and set Depth if neither local nor global 
Depth :- 0 
if Locate Sym(symtab,v) then 
return symtab 
elif Locate Sym(GloSymtab,v) then 
return GloSymtab 
else 
symtabi := Encl Sym Tab(symtab,v) 
Depth :- Depth Sym Tab(symtabi,symtab) 
return symtabi 
fi 
end || Find,.Sym Tab 



















procedure Find Üpcode(symtype) returns integer 


图 3-15 生成 存 取 指令 时 用 到 的 附属 例 程 
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symtype: in SymType 
begin 
for i := 1 to 11 do 
if symtype = LdStType[i].type then 
return i 
fi 
od 
end [| Find_Opcode 
procedure Gen_LdSt (symtabi ,OpCode, reg, symdisp, stflag) 
symtabi: in SymTab 
OpCode: in CharString 
reg: in Register 
symdisp: in integer 
stflag: in boolean 
begin 
i: integer 
regi, regc: CharString 
if symtabi - GloSymtab then 
[| set regi to base address 





















regi = "gp" 

regc :- Reg Char(reg) 
else 

regi :- "fp" 


if stflag then 

reg := Alloc_Reg_Anon(int, 4) 
fi 
regc := Reg Char(reg) 
|| generate loads to get to the right stack frame 
for i := 1 to Depth do 

Gen. Inst("lduw","[" e regl e "+" 

€ StaticLinkOffset e "]," 6 regc) 
regi := regc 














od 

if stflag then 
Free_Reg (reg) 

fi 




















generate load or store 
if Short Const(symdisp) & stflag then 
Gen Inst(Üpcode,regc e ",[" e regi e "+" e Int Char(symdisp) e "]"); 
return 
elif Short Const(symdisp) then 
Gen Inst(Opcode,"[" © regi e "+" e Int Char(symdisp) ® "]," € regc); 
return 
fi 
|| generate sethi and load or store 
Gen_Inst ("sethi","%hi(" © Int Char(symdisp) © ")," @ regi) 
if stflag then 
Gen_Inst (Opcode,regc € ",[" © regi e "+%1o(" e Int_Char(symdisp) 
e ")] ") 
else 
Gen Inst(Opcode,"[" ® regi e "+%lo(" e Int Char(symdisp) e ")]," 
€ regc) 
fi 





end |} Gen. LdSt 





图 3-15 ($) 


45 





61 
63 


1 LEA 


与 简单 地 在 使 用 一 个 值 之 前 取 它 到 寄存 器 和 计算 好 一 个 值 便 立即 存储 它 的 方法 不 同 ， 我 们 
不 难 提供 这 些 存 / 取 寄 存 器 的 例 程 的 更 成 熟 版 本 。 第 一 种 改进 是 对 每 一 个 寄存 器 的 内 容 进行 追 
踪 ， 如 果 需 要 的 值 已 在 适当 类 型 的 寄存 器 中 ， 就 无 需 元 余地 取 它 而 直接 使 用 该 寄存 器 ;如 果 值 
已 经 在 一 个 寄存 器 中 ， 但 是 类 型 不 符 ， 则 当 目 标 体系 结构 支持 整 型 和 浮 点 型 寄存 器 之 间 的 数据 
移动 时 ， 可 以 生成 传送 指令 而 不 是 取 数 指令 。 如 果 寄 存 器 已 用 完 ， 我 们 可 以 选择 一 个 来 重新 使 
用 (我 们 将 这 一 任务 分 派 给 ALL1oc_Reg () )。 类 似 地 ， 我 们 不 是 每 计算 一 个 值 后 就 立即 存储 
它 ， 而 是 推迟 到 基本 块 结束 时 或 寄存 器 用 完 时 再 存储 。 如 果 需 要 的 寄存 器 个 数 多 于 可 用 的 寄存 
器 个 数 ， 我 们 还 可 以 采用 这 样 的 策略 来 实现 Reg_to_Sym() ， 即 尽 可 能 合理 地 及 时 存储 每 一 
个 计算 出 的 量 ， 以 便 使 得 需要 的 存 数 指令 条 数 和 使 用 的 寄存 器 个 数 都 保持 最 少 。 

后 两 种 策略 还 可 以 更 进一步 ， 我 们 可 以 通过 考虑 一 个 基本 块 入 口 处 各 个 寄存 器 的 状态 来 对 
多 个 基本 块 进行 寄存 器 分 配 。 如 果 一 个 基本 块 只 有 一 个 前 驱 ， 基 本 块 信 口 时 的 寄存 器 状态 就 是 
其 前 驱 出 口 时 的 状态 。 如 果 它 有 多 个 前 驱 ， 比 较 恰 当 的 选择 是 取 这 些 前 驱 出 口 寄 存 器 状态 的 交 
集 。 这 种 寄存 器 分 配方 法 对 于 诸如 if-then-else 的 结构 是 相当 有 效 的 ， 能 使 存 取 指令 最 
少 ; 但 对 循环 没有 帮助 ， 因 为 循环 体 的 前 驱 之 一 是 循环 体 本 身 。 要 做 得 更 好 ， 我 们 需要 第 16 章 
讨论 的 全 局 寄存 器 分 配 技 术 ， 那 一 章 更 详细 地 讨论 了 这 里 刚 描述 的 局 部 寄存 器 分 配方 法 。 

另 一 种 选择 是 在 代码 生成 时 分 配 符号 寄存 器 ， 在 需要 时 由 全 局 寄存 器 分 配器 为 这 些 符号 寄 
存 器 分 配 存 储 单元 。 

对 于 导入 到 当前 作用 域 中 的 闭 作用 域 中 的 变量 ， 生 成 它们 的 存 取 指令 相对 容易 ， 只 要 给 每 
一 个 符号 表 (不 是 符号 表 项 ) 增加 若干 属性 指出 它 所 表示 的 是 哪 一 种 作用 域 ， 以 及 它 用 哪个 寄 
存 器 ( 即 非 :p 和 gp 的 寄存 器 ) 来 访问 其 内 的 符号 即 可 。 


3.7 小 结 


本 章 讨论 了 如 何 构造 适应 现代 程序 设计 语言 特点 的 局 部 和 全 局 符号 表 ， 以 及 在 实现 这 些 语 
言 的 编译 器 中 如 何 更 有 效 地 使 用 它们 等 问题 。 

我 们 首先 讨论 了 存储 类 和 可 见 性 或 作用 域 规则 ， 然 后 讨论 了 符号 属性 以 及 如 何 构造 局 部 符 
号 表 ， 介 绍 了 一 种 组 织 全 局 符号 表 的 方法 ， 这 种 方法 支持 诸如 Modula-2、Ada 和 C++ 等 语言 
的 导出 和 导入 作用 域 。 

接着 ， 给 出 了 全 局 和 局 部 符号 表 的 程序 设计 接口 ， 这 些 接口 使 得 人 们 可 以 随意 按 自己 的 需 
要 来 构造 全 局 和 局 部 符号 表 ， 只 要 满足 这 些 接口 规定 就 可 以 。 在 此 之 后 ， 我 们 探讨 了 给 变量 绑 
定 存储 单元 和 符号 寄存 器 的 有 关 问 题 ， 并 且 给 出 了 若干 ICAN 例 程 ， 这 些 例 程 生成 与 变量 符号 
属性 和 前 面 提 到 的 符号 表 接口 相 一 致 的 关于 变量 的 存 取 指 令 。 

这 一 章 学 到 的 主要 内 容 是 : (1) 存在 多 种 实现 符号 表 的 方法 ， 有 一 些 方法 更 有 效 ，(2) 使 符 
号 表 的 操作 具有 效率 是 非常 重要 的 ，(3) 仔细 考虑 所 使 用 的 数据 结构 能 得 到 既 相对 简单 又 高 效 的 
实现 ，(4) 通过 一 种 十 分 特殊 的 接口 ， 可 以 对 编译 器 的 其 他 部 分 隐藏 符号 表 的 结构 ，(5) 存在 若 
和 干 种 生成 存 取 指令 的 方法 ， 这 些 方法 在 追踪 寄存 器 的 内 容 和 最 小 化 存储 交换 方面 ， 其 效率 上 各 有 
高 低 。 


3.8 进一步 阅读 


[MitM79] 中 描述 了 程序 设计 语言 Mesa。 
[Knut73] 提 供 了 丰富 的 有 关 设 计 散 列 函 数 的 信息 和 技术 。 
本 节 描 述 的 作用 域 模型 基于 Graham、Joy 和 Roubine 写 的 论文 [GraJ79]。 
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3.9 练习 
3.1 给 出 实际 程序 设计 语言 中 与 下 表 列 出 的 每 一 种 作用 域 和 生命 期 相 匹配 的 例子 。 对 于 每 


3.2 


3. 


3.4 
3. 


3.6 


3. 


Us 


5 


- 






一 种 情形 ， 指 明 其 语言 并 给 出 代码 例子 。 


| | pL | 
| 
| 
| | | 
| | | | 


写 一 个 ICAN 例 程 Struct_Equiv (tnl, tn2, td) ， 它 以 用 ICAN 表 示 的 两 个 类 型 名 in1 
和 tn2， 以 及 一 个 Pascal 类 型 定义 集合 td 作为 其 参数 ， 其 中 tn1 和 tn2 要 么 是 简单 类 型 ， 
要 么 是 在 td 中 定义 的 类 型 之 一 。 如 果 tn1 和 tn2 在 结构 上 等 价 ， 该 例 程 返 回 true; MR 
它们 不 等 价 ， 则 返回 false。td 是 一 个 ICAN 的 偶 对 表 ， 偶 对 的 每 一 个 成 员 由 一 个 类 
型 名 和 一 个 类 型 表示 组 成 ， 例 如 ， 图 3-1b 的 类 型 定义 可 用 如 下 列表 来 表示 : 

[Xt1, array,2, [<0,5>,<1,10>], integer>>, 

(t2, Crecord,3, [(t2a, integer), (t2b, (pointer,t2)), 


(t2c, (array,1,[¢1,3>],char>>]>>, 
«t3, (array,1, [41,1005] ,t2>>] 
两 个 类 型 在 结构 上 等 价 是 指 : (1) 它们 都 是 同一 种 简单 类 型 ， 或 者 (2) 除了 对 组 成 它 

们 的 类 型 可 能 使 用 不 同 的 类 型 名 之 外 ， 它 们 的 定义 相同 。 例 如 ， 给 定 Pascal 类 型 定义 
ti = integer; 
t2 - array [1..10] of integer; 
t3 - array [1..10) of t1; 
t4 = record fi: integer; f2: Tt4 end; 
tb = record fi: ti; f2: Tt4 end; 
t6 = record fi: t2; f2: ft4 end; 


偶 对 t1 和 integer、t2 和 t3、t4 和 t5， 每 一 对 在 结构 上 都 是 等 价 的 ， 而 t6 与 所 有 
其 他 类 型 不 等 价 。 
写 一 个 计算 栈 变 量 偏 移 量 的 子 程序 ， 其 中 偏 移 量 是 相对 于 栈 帧 指针 的 ， 并 且 栈 变量 按 
如 下 不 同 顺序 排列 : 

(a) 按 符号 表 给 定 的 顺序 ; (b) 按 数据 长 度 的 顺序 ， 最 长 的 在 前 ; 〈c) 按 数据 长 度 的 
顺序 ， 最 短 的 在 前 。 
写 出 (a) Sym to Reg(). (b)Reg_to_Sym() 和 (c)R11oc_Reg () 的 寄存 器 追踪 版 本 。 
设计 一 个 ICAN 符 号 表 项 ， 它 至 少 包括 3.2 节 开始 处 描述 的 域 ， 并 用 ICAN 写 出 例 程 
Get_Sym_Attr()#lSet_Sym_Attr(). 
利用 上 一 练习 的 符号 表 项 设计 ， 设 计 一 个 局 部 符号 表 结 构 ， 并 用 ICAN 实 现 
Insert Sym(). Locate Sym(). Next Sym()füMore Syms(). 
利用 上 一 练习 的 局 部 符号 表 设 计 ， 设 计 一 个 全 局 符号 表 结构 ， 并 用 ICAN 实 现 支持 闭 
作用 域 的 New_Sym_mTab()、Dest_Sym_Tab()、Encl_Sym_Tab () 和 
Depth Sym Tab(). 
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第 4 章 中 间 表 示 


本 章 探讨 中 间 代 码 表示 和 设计 中 涉及 的 问题 ， 如 同 我 们 即将 看 到 的 一 样 ， 中 间 代 码 结构 有 
许多 可 行 的 选择 。 

在 讨论 了 各 种 中 间 代 码 形式 和 它们 各 自 的 优点 之 后 ， 我 们 最 终 需 要 选择 使 用 一 种 具体 的 中 
间 代 码 设计 ， 以 便 用 它 来 表示 有 关 优 化 和 代码 生成 的 问题 。 我 们 主要 使 用 的 中 间 语 言 称 为 中 级 
中 间 表 示 ， 简 称 MIR。 本 章 还 描述 一 种 级 别 稍 高 一 点 的 形式 ， 称 为 高 级 中 间 表 示 ， 简 称 HIR， 
以 及 一 种 级 别 稍 低 一 点 的 形式 ， 称 为 LIR 的 低级 中 间 表 示 。 基 本 MIR 适 合 于 大 多 数 优化 (LIR 
也 如 此 ) ; HIR 则 用 于 依赖 分 析 和 基于 依赖 分 析 的 某 些 代码 转换 ;LIR 用 于 那些 需要 明确 指明 
寄存 器 和 地 址 的 优化 。 


41 与 中 间 语 言 设计 有 关 的 问题 


中 间 语 言 设计 在 很 大 程度 上 是 艺术 而 不 是 科学 ， 可 以 应 用 若干 设计 原则 ， 也 有 许 许多 多 的 
经 验 可 以 借鉴 ， 但 不 管 怎样 都 要 决定 是 否 采 用 一 个 现存 的 表示 。 如 果 不 用 现存 的 语言 ， 在 新 的 
设计 中 就 会 有 许多 需要 决定 的 问题 。 如 果 使 用 现存 的 语言 ， 就 需要 考虑 它 对 新 编译 器 的 各 种 适 
应 性 问题 一 一 既 包 括 被 编译 的 语言 也 包括 目标 机 体系 结构 ， 还 需要 考虑 实现 它 所 产生 的 移植 代 
价 与 重用 现 有 设计 和 代码 所 固有 的 开销 节省 之 间 的 权衡 。 新 的 中 间 语 言 形式 是 否 适合 所 要 实现 
的 优化 种 类 和 级 别 也 是 需要 考虑 的 问题 。 对 于 某 种 给 定 的 中 间 语 言 ， 有 的 优化 可 能 很 难 实现 ， 
而 另 一 些 优化 则 可 能 花费 比 用 其 他 中 间 表 示 更 长 的 时 间 。 例 如 ，UCODE 中 间 语 言 (PA-RISC 
和 MIPS 编 译 器 所 使 用 的 一 种 中 间 语 言 形 式 ) 就 设计 得 非常 适合 于 那 种 用 栈 对 表达 式 求 值 的 体 
系 结构 ， 因 为 栈 就 是 其 表达 式 求 值 模型 。 但 是 它 不 太 适合 那 种 没有 计算 栈 ， 而 是 具有 大 量 寄存 
器 集合 ， 并 且 需 预先 将 数据 取 至 寄存 器 ， 然 后 将 结果 存 回 内 存 的 体系 结构 。 因 此 ，Hewlett- 
Packard 的 编译 器 和 MIPS 的 编译 器 为 了 进行 优化 ， 都 将 UCODE 转 换 为 另 一 种 形式 。HP 将 它 转 
换 为 一 种 级 别 非常 低 的 表示 ， 而 MIPS 在 优化 器 中 将 它 转换 为 一 种 中 间 级 别 的 三 元 式 形式 ， 并 
基于 这 种 形式 进行 优化 ， 然 后 ， 再 将 这 种 形式 转换 回 UCODE 进 行 代码 生成 。 

如 果 要 设计 一 种 新 的 中 间 表 示 ， 其 中 涉及 的 问题 包括 : 它 的 级 别 〈 更 具体 地 ， 即 它 依赖 机 
器 的 程度 )、 它 的 结构 、 它 的 表达 能 力 〈 即 覆盖 适当 种 类 的 语言 所 需要 的 各 种 结构 )、 它 对 某 种 
优化 或 某 些 特殊 优化 的 适应 性 ， 以 及 它 对 目标 机 体系 结构 或 多 种 目标 机 体系 结构 生成 代码 的 适 
应 性 。 

一 个 编译 器 也 可 能 使 用 多 种 中 间 形 式 ， 在 编译 过 程 中 从 一 种 形式 转换 至 另 一 种 形式 ， 以 便 
保护 已 有 的 技术 投资 ， 或 能 够 在 相应 的 时 间 内 完成 适合 于 不 同 级 别 形式 的 功能 。 一 个 编译 器 也 
可 以 有 多 级 的 中 间 形 式 。 前 者 是 Hewlett-Packard 在 其 PA-RISC 芯 片 编译 器 上 的 做 法 。 该 编译 器 
首先 将 程序 转换 成 UCODE 形 式 ， 这 是 前 一 代 HP3000 系 列 所 使 用 的 中 间 形 式 《UCODE 非 常 适 
合 它们 ， 因 为 它们 是 栈 式 机 器 )。 然 后 ， 它 们 经 过 两 个 步骤 而 被 转换 成 一 种 称 为 SLLICS 的 非 
常 低级 的 表示 ， 所 有 优化 实质 上 都 是 基于 这 种 表示 实现 的 。 这 种 做 法 的 好 处 是 ， 既 能 在 这 种 非 
常 低 的 级 别 上 有 效 地 实现 优化 ， 同 时 保存 了 语言 前 端 和 中 间 阶 段 所 收集 的 关于 代码 的 信息 。 


© SLLIC 是 Spectrum Low-Level Intermediate Code 的 缩写 。Spectrum 是 PA-RISC 在 其 开发 时 期 的 名 字 。 





在 后 一 种 方法 中 ， 典 型 地 ， 对 某 些 语法 结构 可 能 会 有 多 种 表示 ， 并 且 每 一 种 表示 可 能 只 适 
合 于 某 一 种 特定 的 任务 。 这 种 情况 的 一 个 常见 例子 是 分 别 用 下 标 表 (相对 高 级 的 形式 ) 和 线性 
表达 式 (低级 形式 ， 它 明确 地 计算 相对 数组 基地 址 或 其 他 元 素 地 址 的 存储 偏 移 ) 来 表示 下 标 表 
达 式 。 表 的 形式 要 适合 进行 依赖 分 析 (参见 9.1 节 )， 有 多 种 优化 要 基于 依赖 分 析 。 而 线性 形式 
适合 于 常数 折 番 、 强 度 前 弱 、 循 环 不 变 代码 外 提 ， 以 及 其 他 更 为 基础 的 优化 。 

例如 ， 使 用 后 面 4.6 节 所 描述 的 表示 ， 对 于 具有 声明 

float a[20][10] 
的 C 表 达 式 a[li] [1j+2]， 可 以 表示 成 图 4-1a 所 示 的 高 级 形式 (HIR)， 图 4-1b 所 示 的 中 级 形式 
(MIR) 和 图 4-1c 所 示 的 低级 形式 (LIR)。 高 级 和 中 级 形式 中 变量 名 的 使 用 指明 该 变量 的 符号 
表 项 ， 中 级 形式 中 的 一 元 运算 符 aadr 和 “*” 分 别 表示 取 一 个 对 象 的 地 址 和 指针 间接 引用 。 高 
级 形式 指明 它 所 引用 的 是 一 个 具有 两 个 下 标的 数组 元 素 ， 其 中 第 一 个 下 标 是 i ， 第 二 个 下 标 是 
表达 式 j+2。 中 级 形式 计算 

(addr a)* 4 * ( i * 20 * j * 2) 


作为 该 数组 元 素 的 地 址 ， 并 且 将 此 地 址 中 的 值 取 至 临时 变量 t7。 低 级 形式 从 存储 器 取 i 和 j 的 


值 (假定 分 别 在 相对 栈 帧 指针 寄存 器 fp 偏 移 为 -4 和 -8 的 位 置 )， 计 算 此 数组 元 素 在 数组 内 的 


偏 移 ， 然 后 将 该 数组 元 素 的 值 取 到 浮 点 寄存 器 fl1。 


ti <- a[i,j*2] tie j+2 
t2 e i * 20 
t3 < tl + t2 
ta «€ 4% t3 


ri < [fp-4] 
r2 eri+2 
r3 «- [fp-8] 
r4 «- r3 * 20 


t5 «- addr a 
t6 «- t5 + t4 
t7 < *t6 


r5 «- r4 + r2 
r6 €- 4 * r5 
r7 €- fp - 216 
fi < [r7*r6) 





a) b) c) 
图 4-1 C 数 组 引用 的 a) 高 级 、b) 中 级 和 c) 低级 表示 


注意 ， 为 了 提高 编译 速度 和 代码 的 紧凑 性 ， 中 间 代 码 的 表示 在 编译 器 内 部 一 般 是 二 进 制 形 
式 ， 而 符号 (如 变量 ) 则 表示 为 指向 符号 表 项 的 指针 。 在 本 书 的 例子 中 ， 我 们 使 用 便于 阅读 的 
外 部 正文 表示 。 大 多 数 编译 器 都 有 为 了 满足 编译 器 设计 者 自己 的 需要 而 开发 的 中 间 代 码 的 调试 
输出 。 在 某 些 情况 下 ， 如 在 那些 保存 中 间 代 码 以 便 能 够 跨 模块 过 程 集成 (参见 15.2 节 ) 的 编译 
器 中 ， 它 不 仅 是 用 于 调试 目的 的 打印 形式 ， 而 且 还 是 可 以 被 再 读 回 去 并 使 用 的 形式 。 在 设计 这 
种 外 部 表示 时 遇 到 的 三 个 主要 问题 是 : (1) 在 外 部 表示 中 如 何以 位 置 无 关 的 方式 来 表示 指针 ? 
(2) 如 何以 惟一 的 方式 来 表示 在 模块 中 出 现 的 编译 生成 的 对 象 ， 如 临时 变量 ? (3) 如 何 使 得 外 部 
表示 既是 紧凑 的 又 能 被 快速 读 写 ? 一 种 可 能 的 途径 是 使 用 两 种 外 部 表示 一 一 基于 字符 的 表示 给 
人 阅读 , 而 二 进 制 形式 用 于 支持 跨 模块 过 程 集成 和 其 他 的 过 程 间 分 析 和 优化 。 在 二 进 制 形式 中 ， 
可 通过 使 指针 保持 与 它 所 引用 对 象 的 相对 位 置 而 使 指针 与 位 置 无 关 。 为 了 使 得 每 一 个 临时 变量 
对 使 用 它 的 模块 是 惟一 的 ， 可 以 让 临时 变量 名 中 包含 模块 名 。 


42 高 级 中 间 语 言 


高 级 中 间 语 言 几乎 总 是 用 于 编译 过 程 的 最 早 阶段 ， 或 用 于 编译 之 前 的 预 处 理 器 中 。 在 前 一 
种 情况 下 ， 它 们 由 编译 前 端 产生 ， 并 且 一 般 在 此 之 后 不 久 便 被 转换 成 低级 形式 。 在 后 一 种 情况 
下 ， 它 们 常常 被 转换 回 到 原先 的 语言 或 另 一 种 语言 的 源 代 码 形式 。 
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最 常见 的 一 种 高 级 中 间 语 言 形式 是 抽象 语法 树 ， 它 保持 了 明显 的 程序 结构 ， 并 含有 能 够 将 
它 重 构 到 源 代码 形式 或 其 近似 形式 的 足够 信息 。 抽 象 语法 树 主要 用 于 语言 敏感 的 或 语法 制导 的 
程序 设计 语言 编辑 器 中 ， 在 这 种 编辑 器 中 ， 它 们 通常 就 是 程序 的 标准 内 部 表示 。 例 如 ， 考 虑 图 
4-2 中 的 简单 C 例 程 和 图 4-3 中 该 例 程 的 抽象 语法 树 表示 。 这 棵 树 (包括 其 中 指出 变量 类 型 的 符 ”[70] 
Sk) 提供 了 重 构 源 代码 所 需 的 一 切 信息 〈 源 代码 行 的 布局 细节 信息 除外 ， 但 如 果 需 要 ， 它 可 
以 作为 注解 包含 进来 )。 


int f(a,b 
将 抽象 语法 树 转换 为 中 级 中 间 代码 形式 (如 下 一 节 讨 论 mt a be 
的 那些 形式 )， 只 需要 由 一 个 知道 源 语言 语义 的 编译 组 件 对 树 (due; 
做 一 次 遍历 即 可 。 print(b, c); 
高 级 中 间 语言 的 另 一 种 形式 是 9.1 节 将 讨论 的 用 于 依赖 关 } 





系 分 析 的 形式 。 这 种 中 间 语言 与 树 不 同 ， 它 通常 是 线性 的 ， war 个 小 C 例 程 ， 其 抽象 语法 
但 它 保留 了 源 语言 的 某 些 特征 ， 如 数组 下 标 和 循环 结构 ( 基 出 在 图 4.3 中 给 出 

本 上 是 其 源 代码 的 形式 )。 后 面 4.6.2 节 将 描述 的 HIR 具 有 这 种 

高 级 特征 ， 但 也 包含 了 许多 中 级 特征 。 


function 


ident paramlist body 
f 


ident paramlist decllist stmtlist 


NN V N 


ident end ident end = stmtlist 
b 


w4N OLN 


ident * call end 


/\ LIN 


ident const ident arglist 


a print /\ 


ident arglist 


/N. 


ident en 
图 4-3 图 4-2 中 的 C 例 程 的 抽象 语法 树 


43 中 级 中 间 语 言 


中 级 中 间 语 言 的 设计 通常 既 要 能 够 以 一 种 与 语言 无 关 的 方式 在 一 定 程度 上 反映 源 语言 集合 
的 特征 ， 又 要 能 够 适应 多 种 体系 结构 并 能 有 效 生 成 它们 的 机 器 代码 。 中 间 语 言 能 够 表示 源 程序 
变量 、 临 时 变量 和 寄存 器 ， 能 够 将 控制 流 归 约 为 简单 的 有 条 件 和 无 条 件 分 支 、 调用 和 返回 ， 还 
能 够 用 明显 的 操作 来 支持 块 结构 和 过 程 。 





EX 


我 们 的 MIR (4.6.1435) 和 Sun 的 IR (21.135) 都 是 中 间 语 言 的 好 例子 。 
中 级 中 间 语 言 适 合 于 多 数 编译 优化 ， 如 公共 子 表达 式 删 除 (13.1 节 )、 代 码 外 提 (13.24) 
和 代数 化 简 (12.3 节 )。 


4.4 低级 中 间 语言 


低级 中 间 语 言 与 目标 机 指令 几乎 是 一 一 对 应 的 ， 因 此 也 经 常 与 体系 结构 相关 。 与 目标 机 指 
令 不 一 一 对 应 的 情形 一 般 有 两 种 。 一 种 发 生 在 中 间 代 码 可 能 生成 多 种 最 有 效 的 代码 时 。 例 如 ， 
低级 中 间 语 言 可 能 有 一 个 整数 乘法 运算 符 ， 但 目标 机 体系 结构 可 能 没有 乘法 指令 ， 或 者 虽 有 乘 
法 指令 ， 但 对 于 某 种 操作 数组 合 而 言 却 不 是 要 生成 的 最 好 代码 选择 。 另 一 种 情况 是 中 间 代 码 可 
能 只 有 简单 的 寻 址 方式 ， 如 寄存 器 + 寄存 器 和 寄存 器 + 常量 ， 而 目标 体系 结构 有 多 种 复杂 的 方 
式 ， 如 带 缩放 的 变 址 或 变 址 寄存 器 修改 方式 。 在 这 两 种 情况 下 ， 为 中 间 代码 选择 要 生成 的 适当 
指令 或 指令 序列 ， 就 成 为 了 编译 过 程 中 最 终 指令 选择 遍 或 优化 之 后 的 处 理 遍 的 功能 。 使 用 这 种 
1] 表示 既 允 许 对 中 间 代 码 执行 尽 可 能 多 的 优化 ， 又 允许 在 编译 的 最 后 几 遍 中 扩展 中 间 代 码 指令 为 
代码 序列 ， 或 将 相关 的 代码 组 合 为 更 有 效 的 指令 。 
例如 ， 假 设 目标 体系 结构 有 一 条 取 数 指令 ， 它 能 可 选 地 在 取 数 的 同时 更 新 用 于 取 数 的 那个 
基地 址 ， 但 做 了 这 种 更 新 就 不 能 设置 机 器 的 条 件 代 码 ， 或 者 不 允许 将 它 用 在 一 条 加 并 且 (有 条 
件 ) 分 支 指令 中 ， 因 此 ， 不 能 用 它 来 对 包含 它 的 循环 进行 计数 。 于 是 ， 一 方面 我 们 可 能 要 考虑 
将 那 种 取 数 据 并 增加 该 数据 地 址 的 中 间 代 码 组 合 为 一 条 带 有 地 址 增加 动作 的 取 数 指令 。 另 一 方 
面 ， 如 果 已 确定 循环 控制 变量 是 一 个 归纳 变量 并 且 它 已 被 删除 ， 我 们 可 能 又 会 需要 使 修改 地 址 
与 取 数 保持 独立 ， 以 便 用 它 来 测试 循环 结束 条 件 。 图 4-4 说 明了 这 个 例子 ， 图 4-4a 中 的 MIR 分 别 
进行 取 数 、 增 加 所 取 数 的 地 址 、 增 加 循环 计数 器 、 测 试 循环 的 完成 ， 并 根据 测试 结果 进行 转移 ， 
其 中 的 操作 数 都 是 临时 变量 和 常量 。 图 4-4b 中 的 PA-RISC 代 码 用 带 有 地 址 更 新 的 取 字 指令 取 数 ， 
这 个 更 新 修改 r2 中 的 地 址 使 其 指向 下 一 个 数组 元 素 ， 然 后 用 直接 数 加 指令 来 增加 循环 计数 器 ， 
并 做 关 闭 循环 的 比较 和 转移 。 图 4-4c 中 的 代码 用 一 条 带 变 址 的 取 字 指令 来 访问 数据 ， 然 后 用 一 
条 直接 数 加 及 分 支 指令 来 修改 地 址 和 关闭 循环 。 


Li: t2 — *ti 
ti < ti +4 










Li: LDWM — 4(0,r2),r3 Li: LDWX — r2(0,r1),r3 


t3 € t3 + 1 
t5 «- t3 < t4 
if tb goto L1 


ADDI 1,r4,r4 


A S LI , 
COMB,< r4,r5,L1 DDIB,< 4,r2,L1 





a) b c) 
图 4-4 a) 是 一 段 MIR 代 码 ，b) 和 c) 是 分 别 为 它 生 成 的 两 种 可 选 PA-RISC 代 码 序列 


45 多 级 中 间 语 言 


我 们 提 到 的 这 些 中 间 语 言 中 ， 有 一 些 包 含 了 最 好 视 为 同一 种 语言 的 多 级 表示 的 若干 特征 。 

例如 ，Sun 的 中 闻 语 言 取 有 一 些 高 级 特征 ， 如 用 多 个 下 标 来 表示 一 个 多 下 标的 数组 引用 ， 以 及 
将 多 个 下 标 线性 化 为 一 个 偏 移 量 来 表示 一 个 多 下 标 数组 引用 。 前 一 种 表示 对 各 种 依赖 分 析 〈 参 
见 9.3 节 ) 非常 有 用 ， 因 此 适合 于 向 量化 、 并 行 化 和 数据 高 速 缓存 优化 ， 而 后 一 种 表示 对 传统 
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的 循环 优化 更 敏感 。 

在 这 种 多 级 中 间 语 言 的 另 一 端 ， 低 级 SLLIC 则 包含 了 整数 乘 和 除 运算 符 ， 尽 管 PA-RISC 硬 
件 事实 上 没有 基于 整数 寄存 器 的 整数 乘法 指令 (虽然 PA-RISC 1.1 提 供 了 对 存放 在 浮 点 寄存 器 
的 整数 做 整数 乘 的 指令 )， 也 没有 任何 整数 除法 指令 。 这 样 做 为 那些 依赖 于 识别 乘法 和 除法 而 
进行 的 优化 提供 了 机 会 ， 并 由 此 使 得 生成 最 终 代码 的 模块 可 以 决定 用 最 有 效 的 移 位 和 加 法 指令 
来 实现 特定 的 乘法 ， 而 不 是 用 硬件 提供 的 乘法 指令 来 实现 它们 。 


4.6 我 们 的 中 间 语 言 : MIR、HIR 和 LIR 


从 现在 开始 ， 在 多 数 用 中 间 语言 表示 的 例子 中 ， 我 们 使 用 称 为 MIR (中 级 中 间 表 示 ， 读 做 
*meer") 的 语言 ， 下 一 节 给 出 它 的 描述 。 在 适当 的 地 方 ， 我 们 使 用 MIR 的 增强 版 本 ， 称 为 HIR 
(高 级 中 间 表 示 ， 读 做 “heer” )， 它 带 有 某 些 高 级 特征 ， 如 用 表 而 不 是 用 相对 数组 基 址 偏 移 的 
线性 表达 式 来 表示 带 下 标的 数组 引用 。 相 应 地 ， 在 适当 的 地 方 ， 当 希望 能 具体 地 表示 低级 特征 
(如 显 式 表示 寄存 器 、 存 储 器 地 址 和 类 似 的 情况 ) 时 ， 我 们 使 用 MIR 的 一 个 改编 版 本 ， 称 为 LIR 
(低级 中 间 表 示 ， 读 做 “leer”)。 侦 尔 为 了 便于 表示 从 一 种 级 别 到 下 一 种 级 别 的 转换 步 只 ， 或 使 
得 叙述 更 明确 ， 我 们 也 在 一 些 程序 中 混合 使 用 MIR 和 HIR 或 LIR. 
4.6.1 中 级 中 间 表 示 (MIR) 

MIR 主 要 由 一 张 符号 表 和 一 些 四 元 式 组 成 ， 其 中 四 元 式 由 一 个 运算 符 和 三 个 操作 数组 成 ， 
只 有 不 多 的 几 个 四 元 式 的 操作 数 多 于 或 少 于 三 个 。MIR 保 留 了 几 种 特殊 的 符号 用 于 表示 临时 变 
量 、 寄 存 器 和 标号 。 无 论 什么 情况 下 ， 我 们 都 将 MIR 指 令 写作 赋值 语句 的 形式 ， 用 “一 ”作为 
赋值 运算 符 。 我 们 用 2.1 节 描述 的 XBNF 表 示 来 表示 MIR 和 其 他 两 种 在 后 面 将 定义 的 中 间 语 计 
HIR 和 LIR 的 语法 。 

在 介绍 MIR 之 初 ， 我 们 首先 用 XBNF 给 出 MIR 程 序 的 语法 ( 见 表 4-1)。 一 个 程序 由 一 系列 
程序 单元 组 成 ， 每 一 个 程序 单元 由 可 选 的 标号 ,后 随 用 begin 和 end 界 定 的 指令 序列 组 成 。 

表 4-1 MIR 程 序 和 程序 单元 的 XBNF 语 法 





Program — [Label :] ProgUnit* 

ProgUnit — [Label :] begin MIRInsts end 
MIRInsts — ([Label :] MIRInst [11 Comment] 
Label — Identifier 





接 下 来 在 表 4-2 中 给 出 MIR 指 令 的 语法 ， 它 隐 式 地 声明 了 ICAN 类 型 HIRInst ， 并 且 描 述 了 
"418918 X. MRES "IEJEreceive. Wl. goto. if. JH. returnzsequence, 
它 也 可 以 带 有 标号 。 . 

394-2 MIR 指令 的 XBNF 语 法 





MIRInst — Receivelnst | AssignInst | GotoInst | IfInst | CallInst 
| ReturnInst | Sequencelnst | Label : MIRInst 

Receivelnst — receive VarName ( ParamType ) 

Assigninst — VarName «- Expression 


| VarName «- ( VarName ) Operand 
| [*] VarName |. EltName] «- Operand 
Gotolnst — goto Label 
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( 续 ) 

Ifinst — if RelExpr (goto Label | trap Integer} 
Callinst — [call | VarName «-] ProcName , ArgList 
ArgList — C[(Operand , TypeName} va ;] ) 
ReturnInst — return [Operand] 
SequenceInst — Sequence 
Expression — Operand BinOper Operand 

` | UnaryOper Operand | Operand 
RelExpr — Operand RelOper Operand | [1] Operand 
Operand 一 > VarName | Const 
BinOper — *|-|*1/1|mod | min | max | RelOper 

| shl | shr | shra | and | or | xor | . | *. 

RelOper 一 > =| != 1<1<=|>|>= 
UnaryOper — -| ! | addr | € TypeName ) | * 
Const — Integer | FloatNumber | Boolean 
Integer 一 01{-] NZDecDigit DecDigit* | ox HexDigit* 
FloatNumber — [-] DecDigit* . DecDigit* [E [-] DecDigit*] [D] 
Boolean — true | false 
Label — Identifier 
VarName 一 > Identifier 
EltName — Identifier 
ParamType — val | res | valres | ref 
Identifier — Letter (Letter | Digit | _}* 
Letter — al. [ZAIZ 
NZDecDigit ~> 1/2/3|/4(/5(6|/7/8|9 
DecDigit 一 一 0| NZDecDigit 
HexDigit — DecDigit | a | ..| £ | A| ... | F 





receive 指 令 指 明 接收 来 自 调用 例 程 的 参数 ， 它 只 能 作为 程序 单元 的 第 一 条 可 执行 指令 ， 
用 于 指明 参数 和 参数 传递 所 用 的 规则 , 即 是 传 值 (val), 传 结果 (res), 传 值得 结果 (valres), 


还 是 传 地 址 (ref)。 


赋值 指令 或 是 计算 一 个 表达 式 并 将 其 值 赋 给 一 个 变量 ,或 是 有 条 件 地 将 一 个 操作 数 的 值 赋 
给 一 个 变量 ， 或 是 赋值 给 一 个 由 指针 指向 的 对 象 或 结构 的 成 员 。 前 面 两 种 情况 赋值 的 目标 是 一 
个 变量 。 在 条 件 赋 值 中 ， 稍 头 后 括号 内 的 变量 的 值 必须 是 布尔 值 ， 并 且 仅 当 其 值 为 true 时 赋 
值 才 被 执行 。 表 达 式 的 组 成 可 以 是 一 个 二 元 运算 符 组 合 两 个 操作 数 、 一 元 运算 符 后 跟 一 个 操作 
数 或 仅仅 是 一 个 操作 数 。 二 元 运算 符 可 以 是 下 述 任意 的 算术 运算 符 : 


+ - * / mod min max 
或 关系 运算 符 : 
= != < <= > 
或 移 位 和 逻辑 运算 符 : 343 MIR 申 的 一 元 运算 竺 
shl shr shra and or xor 
EX AA. 符号 & x 
或 成 员 选 择 运 算 符 : - AE 
` ` ! 逻辑 非 
一 元 运算 符 可 以 是 表 4-3 中 给 出 的 任意 符号 。 addr 取 地 址 
第 二 种 类 型 的 赋值 目标 由 一 个 可 选 的 间接 运算 (TypeName) AMA 
* iB 


符 “*”( 它 指明 通过 指针 赋值 )、 一 个 变量 名 和 一 








史 间 表示 55 


个 可 选 的 成 员 选 择 运 算 符 〈“.” 之 后 跟随 指定 结构 的 成 员 名 ) 组 成 ， 它 可 用 来 将 一 个 值 赋 给 通 
过 指针 访问 的 对 象 ， 或 赋 给 一 个 结构 的 成 员 ， 或 赋 给 同时 是 两 者 的 一 个 对 象 。 

goto 指 令 导致 控制 转移 到 其 目标 指出 的 指令 ， 后 者 必须 在 当前 过 程 之 内 。if 指令 测试 一 
个 关系 或 条 件 ， 或 相反 的 关系 或 条 件 。 如 果 条 件 或 关系 满足 ， 导 致 控制 转移 。 此 转移 可 以 与 
goto 指 令 引 起 的 转移 相同 ， 也 可 以 转移 到 运行 时 的 底层 系统 (一 个 “ 自 陷 ”)。 在 后 一 种 情况 
下 ， 它 指明 一 个 整 型 自 陷 号 。 

调用 指令 给 出 被 调用 过 程 的 名 字 和 实 参 表 ， 并 且 可 以 指明 一 个 存放 调用 结果 的 变量 (如果 
它 出 现 的 话 )。 它 导致 以 给 定 的 参数 调用 指定 的 过 程 ， 并 且 如 果 调 用 成 功 ， 其 返回 值 将 赋 给 存 
放 调 用 结果 的 变量 。 

return 指 令 指明 执行 返回 到 调用 当前 过 程 的 那个 过 程 ， 并 且 可 以 包含 一 个 将 返回 值 返 回 
给 调用 者 的 操作 数 。 

sequence 指 令 表示 中 间 代 码 中 的 一 个 栅栏 。 一 条 含有 一 至 多 个 操作 数 的 指令 ， 若 其 中 有 
些 操作 数 带 有 volatile 存 储 类 修饰 符 ， 则 不 能 跨越 sequence 指 令 移 动 ， 不 论 是 向 前 还 是 向 
后 移动 ， 由 此 限制 了 对 含有 这 种 指令 的 代码 进行 优化 。 

标识 符 由 一 个 字母 其 后 跟随 零 到 多 个 字母 、 数 字 或 下 划 线 的 序列 组 成 。 变 量 、 类 型 或 过 程 
的 名 字 可 以 是 任意 标识 符 ， 除 了 如 下 讨论 的 那些 保留 作为 标号 、 临 时 变量 和 符号 寄存 器 的 标识 
符 之 外 。 以 大 写字 母 “L” 打 头 ， 后 随 一 个 十 进 制 非 负 整 数 的 标识 符 表示 标号 ， 如 50、L32 和 
L7701。 我 们 保留 由 小 写字 母 “t” 后 随 一 个 十 进 制 非 负 整数 组 成 的 名 字 为 临时 变量 名 ， 例 如 
t0、t32 和 t7701, 保留 由 小 写字 母 “s” 后 随 一 个 十 进 制 非 负 整数 组 成 的 名 字 为 符号 寄存 器 ， 
保留 0,...,r31 和 £0，,...,f31 为 真实 的 硬件 寄存 器 。 

整 型 常量 可 以 用 十 进 制 或 十 六 进 制 表示 。 十 进 制 整数 是 “0” 或 者 由 可 选 的 负 号 和 一 个 非 0 
的 十 进 制 数字 、 其 后 跟随 零 至 多 个 十 进 制 数字 组 成 。 十 六 进 制 整数 由 “0x” 后 随 一 系列 十 六 
进 制 数 字 组 成 ， 其 中 十 六 进 制 数字 是 十 进 制 数字 和 从 “A” 到 “F” 的 大 写字 母 , 或 从 “a” 到 
“£f” 的 小 写字 母 。 例 如 ， 下 面 都 是 合法 的 整数 : 

01 3462 -2 -49 0x0 0Ox137A 0x2fffffc 

在 浮 点 数 中 ， 以 “E” 开 始 的 部 分 指出 前 面 的 值 要 乘 以 10 的 “BE” 之 后 的 整数 值 次 害 ， 可 
选 的 “D” 指 明 双 精度 值 ， 于 是 ， 例 如 


0.0 3.2E10 -0.5 -2.0E-22 void make node(p,n) 
都 是 单 精度 浮 点 数 ， 而 inc ei ode P5 
0.0D 3.2E102D -0.5D -2.0E-22D ( struct node *q; 
都 是 双 精 度 浮 点 数 。 q = malloc(sizeof(struct node)); 
q-^next = nil; 
MIR 程 序 中 的 注释 以 “| | ”开始 直到 当前 q»value = n; 
行 的 末尾 。 p? H 
在 适当 的 地 方 我 们 使 用 完整 的 MIR 程 序 ， 
但 大 部 分 情况 只 使 用 程序 段 ， 因 为 它们 能 够 满 | ”sense ne D 
是 需要 。 struct node *1; 


wy 人 - A T { if (n > 1->value) 
作为 | MIR 的 例子 ， 图 4-6 中 的 代码 对 应 if (1->next == nil) make_node(1,n); 
于 图 4-5 中 的 两 个 C 过 程 。 else insert_node(n,1->next) ; 
注意 ，MIR 中 有 些 运算 符 (如 min 和 max ) 


通常 不 包含 在 机 器 指令 集中 ， 在 我 们 的 中 间 代 图 4-5 两 个 C 过 程 的 例子 
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码 中 包含 它们 是 因为 它们 在 高 级 语言 中 频繁 出 现 ， 并 且 有 些 体系 结构 提供 了 不 使 用 分 支 而 计算 
它们 的 非常 有 效 的 方法 。 例如， 对 于 PA-RISC，MIR 指 令 tl1~t2 min t3 可 以 转换 为 (假定 
ti 在 寄存 器 ri 中 ) 9 


make_node: 
begin 
receive p(val) 
receive n(val) 
q *- call malloc, (8,int) 
*q.next < nil 
*q.value €- n 
*p.next < q 
return 
end 
insert node: 
begin 
receive n(val) 


receive l(val) 
t1 *- l*.value 


if n <= ti goto Li 
t2 < l*.next 
if t2 != nil goto L2 
call make_node(1,typei;n, int) 
return 
t4 < 1*. next 
call insert_node, (n,int;t4,type1) 
return 
return 
end 


”图 4-6 图 4-5 中 两 个 C 过 程 的 MIR 代 码 


MOVE r2,ri /* copy r2 to ri */ 
COM,>=  r3,r2 /* compare r3 to r2, nullify next if >= */ 
MOVE r3,ri /* copy r3 to ri if not nullified */ . 


还 要 注意 的 是 ， 我 们 提供 了 两 种 方法 来 表示 条 件 和 测试 和 分 支 : (1) 先 计算 条 件 值 ， 然 后 根 
据 它 或 它 的 相反 值 进 行 分 支 ， 即 i 

t3 —- ti < t2 

if t3 goto L1 
或 者 (2) 只 用 一 条 MIR 指 令 计算 条 件 并 进行 分 支 ， 即 

if tl«t2 goto Ll 

前 一 种 方法 能 很 好 地 适应 那 种 没有 条 件 代码 的 体系 结构 ， spARC，POWER 或 Intel 386 
体系 结构 系列 。 对 于 这 种 机 器 ， 比 较 动 作 之 前 有 时 总 包含 了 一 条 减 运 算 指令 ， 因 为 t1 <t2 当 
且 仅 当 0 <t2-t1， 而 且 为 了 能 够 及 时 判定 条 件 代码 以 便 知道 分 支 是 否 会 发 生 ， 将 比较 指令 或 
减 操作 指令 从 条 件 分 支 中 移出 常常 是 所 希望 的 。 后 一 种 方法 很 适合 具有 比较 分 支 指令 的 体系 结 
构 ， 如 PA-RISC 或 MIPS， 因 为 MIR 指 令 一 般 能 转换 成 单条 机 器 指令 。 


4.6.2 高 级 中 间 表 示 (HIR) 
本 节 介 绍 对 MIR 的 有 关 扩充 ， 这 些 扩充 使 其 成 为 高 级 中 间 表示 HIER 。 


e 操作 码 WoVE 和 COM 都 是 伪 操 作 码 ， 而 不 是 实际 的 PA-RISC 指 令 。MOVE 可 作为 ADD 或 OR 来 实现 ，COM 作 为 
COMCLR 来 实现 。 
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存放 ， 排 在 最 后 的 下 标 变 化 最 快 。 我 们 也 包括 了 一 种 高 级 循环 结构 ， 即 for 循 环 和 一 个 复合 if 
结构 。 因 此 ，MIRInst 需 要 用 HIRInst 替 换 ， 且 AssignInst，TrapInst 和 Operand 的 语法 需要 做 如 表 
4-4 所 示 的 改变 。IntExpr 是 其 值 为 整数 的 任意 表达 式 。 

for 循 环 的 语义 类 似 于 Fortran 的 do 语句 而 不 是 C 的 for 语 句 。 具 体 而 言 ， 图 4-7b 的 MIR 代 
码 给 出 了 图 4-7a 中 用 HIR 表 示 的 for 循 环 的 含义 ， 但 有 一 个 附带 条 件 ， 即 HIR 的 for 循 环 的 循环 76 
体 不 能 改变 控制 变量 v 的 值 。 注 意 ， 图 4-7b 的 MIR 代 码 根据 opda2 > 0 是 否 成 立 分 别 从 两 个 循环 |78 
体 中 《〈 从 LI 开始 的 或 从 L2 开 始 的 ) 选择 一 个 循环 体 。 

314-4. 为 使 MIR 扩 展 为 HIR 而 对 指令 和 操作 数 的 XBNF 描 述 所 作 的 改变 


HIRInst — Assigninst | GotoInst | IfInst | CallInst | ReturnInst 
| Receivelnst | Sequencelnst | ForInst | IfInst 
| TrapInst | Label : HIRInst 


ForInst — for VarName «- Operand {by Operand] to Operand do 
HIRInst* endfor i 

IfInst 一 if RelExpr then HIRInst* [else HIRInst*] endif 

Assigninst — [VarName | ArrayRef] < Expression 


| [*] VarName [. EltName] +- Operand 


Trapinst — trap Integer 

Operand — VarName | ArrayRef | Const 
ArrayRef — VarName [ {Subscript va ,} J 
Subscript — IntExpr 





v <€ opdi 

t2 <- opd2 

t3 < opd3 

if t2 > 0 goto L2 
: df v < t3 goto L3 


instructions 
véev+t2 
goto Li 

: if v > t3 goto L3 
instructions 
vevtt2 
goto L2 


for v € opdi by opd2 to opd3 


instructions - 
endfor 





a) b) 
图 4-7 a) for 循 环 的 HIR 形 式 ，b) 用 MIR 表 示 的 该 循环 的 语义 


4.6.3 低级 中 间 表 示 (LIR) 


这 一 节 我 们 描述 使 MIR 变 为 低级 中 间 代 码 LIR 所 需 的 改变 。 我 们 只 通过 替换 MIR 语 法 中 的 
产生 式 (并 根据 需要 作 适 当 增 加 ) 和 描述 新 增加 的 特征 来 对 MIR 语 法 和 语义 进行 必要 的 改变 。 
对 XBNF 描 述 的 有 关 改 变 如 表 4-5 所 示 。 赋 值 和 操作 数 需 要 修改 ， 以 便 用 寄存 器 和 存储 器 地 址 赫 
代 变量 名 。 函 数 调用 需要 修改 ， 以 便 删除 参数 表 ， 因 为 我 们 假定 参数 已 传递 在 运行 栈 中 或 寄存 
器 中 (或 者 ， 如 果 多 于 预先 规定 的 参数 个 数 ， 则 超过 的 参数 传递 在 运行 栈 中 )。 

有 5 种 类 型 的 赋值 指令 ， 即 完成 下 述 5 种 类 型 操作 的 赋值 指令 : 

1. 将 表达 式 的 值 赋 给 一 个 寄存 器 ; 
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34-5 为 创建 LIR 而 对 MIR 指 令 和 表达 式 的 XBNF 描 述 的 改变 


LIRInst — RegAsgninst | CondAsgnInst | StoreInst | LoadInst 
| Gotolnst | IfInst | CallInst |ReturnInst 
| Sequencelnst | Label : LIRInst 


RegAsgninst RegName < Expression . 
| RegName ( Integer , Integer ) < Operand 
CondAsgninst = — RegName «- ( RegName ) Operand 
Storelnst — ` MemAddr [C Length )] < Operand 
Loadlnst — RegName < MemAddr [C Length )] 
Gotolnst — goto {Label | RegName [{+ | -) Integer]} 
CaliInst ` — [RegName <-] call {ProcName | RegName} , RegName 
Operand — “ RegName | Integer 
MemAddr 一 ~ [ RegName ] [C Length )] 


| { RegName + RegName 1 [C Length )] 
| [ RegName [+ | -] Integer ] [( Length )] 
Length 一 一 Integer 


2. 将 操作 数 赋 给 寄存 器 的 一 个 元 素 (在 LIR 中 ， 元 素 用 两 个 整数 来 表示 ， 即 元 素 的 第 一 位 
的 位 置 和 它 占据 的 位 宽度 ， 它 们 之 闻 用 逗号 分 开 并 包含 在 括号 内 ) ; 

3. 根据 一 个 寄存 器 中 的 值 有 条 件 地 将 一 个 操作 数 赋 给 另 一 个 寄存 器 ; 

4. 将 一 个 操作 数 存 人 存储 器 地 址 ; 

5. 从 存储 器 地 址 取 值 到 一 个 寄存 器 。 

存储 器 地 址 用 方 括号 (“[” 和 “1]”) 表示 ， 它 表示 其 值 是 一 个 寄存 器 的 内 容 、 两 个 寄存 
器 的 内 容 之 和 或 一 个 寄存 器 的 内 容 加 上 或 减 去 一 个 整 型 常量 ， 长 度 说 明 如 果 出 现 的话 ， 是 表示 
字 节 数 的 一 个 整数 。 

call 指 令 有 两 个 或 两 个 以 上 的 寄存 器 操作 数 。 倒 数 第 二 个 寄存 器 包含 要 转移 的 地 址 ， 最 
后 一 个 给 出 用 来 存放 返回 地 址 的 寄存 器 ， 返 回 地 址 是 紧 随 这 条 cal1 指 令 之 后 的 地 址 。 

对 于 寄存 器 名 字 ， 我 们 保留 [0，r1，…，r31 表 示 整 型 或 通用 寄存 器 ，£0,f1,... ,£31 
表示 浮 点 寄存 器 ，s0,s1,… 表 示 符 号 寄存 器 。 


4.7 用 ICAN 表 示 MIR、HIR 和 LIR 


为 了 能 够 在 ICAN 程 序 中 方便 地 操作 MIR 、HIR 和 LIR 人 代码， 我们 下 面 讨 论 用 ICAN 表 示 它 
们 的 方法 。 它 们 的 表示 由 ICAN 类 型 MIRInst、HIRInst、LIRInst 和 其 他 的 一 些 类 型 组 成 ， 
这 种 表示 可 以 看 成 是 与 前 一 节 定 义 的 中 间 表 示 的 外 部 打印 形式 相对 应 的 一 种 内 部 形式 ， 即 
ICAN 结 构 。 


表 4-6 ”作为 ICAN 枚 举 类 型 IRoper 的 成 员 的 MIR、HIR 和 LIR 运 算 符 名 
















中 间 代 码 运算 符 ICAN 标 识 符 





ICAN 标 识 符 中 间 代 码 运算 符 


十 add sub 
*( 二 元 运算 符 ) mul div 
mod mod min 
max max eqi 
Iz neql < less 
<= lseq > grtr 
>= gteg shl shl 


n 
eg 
m 
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( 续 ) 
pru fea 4E 7T ICAN Ei TE 小 间 代码 运算 符 ICAN 标 识 符 
and and or or 
xor xor *#{( 一 元 运算 符 ) ind 
. elt *, indelt 
- 【一 元 运算 符 ) neg ! not 
addr addr (none) val 
(类 型 强制 ) cast (间接 赋值 ) lind 
(间接 元 素 赋 值 ) lindelt (条 件 赋值 ) lcond 
(元 来 赋值 ) lelt 





我 们 从 表 4-6 开 始 。 对 于 每 种 中 间 语 言 运算 符 (包括 那些 作用 于 赋值 语句 左 端的 运算 符 )， 
表 4-6 用 枚 举 类 型 TROper 以 及 它 的 同义词 Operator 的 元 素 给 出 了 这 些 运算 符 的 表示 。 枚 举 类 
型 TROper 和 它 的 同义词 Operator 的 定义 如 下 : 


IROper = Operator = enum { 


add, sub, mul, div, mod, min, 
max, eql, neql, less, lseq, grtr, 
gteq, shl, shr, shra, and, or, 

xor, ind, elt, indelt, neg, not, 
addr, val, cast, lind, lcond, lindelt, 
lelt) 


TrüÉid£ülEXICANJSvar. Const, Register, Symbol, Operand# 
LIROperand. 

Var - CharString 

Const = CharString 

Register - CharString 

Symbol - Var U Const 

Operand = Var U Const U TypeName 

LIROperand = Register U Const U TypeName 


实际 上 ， 每 一 种 类 型 是 它 要 声明 的 类 型 的 一 个 子 集 ， 具 体 地 说 ， 

1. Var 的 成 员 是 由 带 双 引号 的 字母 数字 字符 和 下 划 线 组 成 的 序列 ， 其 中 第 一 个 字符 必须 是 
字母 。 临 时 变量 以 小 写字 母 “t” 打 头 后 随 一 至 多 个 十 进 制 数字 组 成 。 以 “s”"、“r” m "f" 
打头 ， 且 后 随 一 至 多 个 十 进 制 数字 组 成 的 符号 表示 寄存 器 ， 它 们 不 是 Var 的 成 员 。 

2. Const 的 成 员 是 整数 或 浮 点 数 ，Integez 的 成 员 是 整数 。 

3. Register 以 “s”、“r” 或 “f” 开 始 ， 其 后 跟随 一 至 多 个 十 进 制 数 字 。 符 号 寄存 器 以 
“s” 打 头 ， 整 数 寄存 器 以 “r” 打 头 ， 浮 点 寄存 器 以 “£f” 打 头 。 

中 间 代 码 其 余部 分 的 CAN 表 示 取 决 于 具体 的 中 间 代 码 一 一 MIR、HIR 或 LIR 一 一 所 以 ， 下 
面 我 们 分 三 个 小 节 来 描述 它们 ， 这 里 首先 定义 Instruction 是 


Instruction = HIRInst U MIRInst U LIRInst 


4.7.1 用 ICAN 表 示 MIR 


我 们 用 ICAN 元 组 表示 每 一 种 MIR 指 令 ， 如 表 4-7 所 示 ， 其 中 隐 式 声明 了 类 型 MIRInst。 
枚 举 类 型 MIRKind、OpdKind 和 ExpKind， 以 及 函数 Exp_Kind() 和 Has_Left( ) 的 定义 如 
图 4-8 所 示 。 
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314-7. ”表示 为 ICAN 元 组 的 MIR 指 令 





Label: 
<kind: label ,1b1: Label» 


receive VarName(ParamType) 
<kind: receive, left: VarName ,ptype: ParamType> 


VarName < Operand1 Binop Operand2 
<kind: binasgn, left: VarName, opr: Binop ,opd1: Operandi , opd2: Operand2> 


VarName < Unop Operand 
<kind: unasgn , left: VarName ,opr : Unop ,opd: Operand> 


VarName < Operand 
<kind: valasgn, left : VarName , opd: Operand) 


VarName1 < (VarName2) Operand 
(kind:condasgn, left : VarName1 , cond: VarName2 ,opd: Operand> 


VarName «- (TypeName) Operand 
(kind:castasgn,left: VarName , type: TypeName ,opd: Operand> 


*VarName «- Operand 
<kind: indasgn, left: VarName , opd: Operand) 


VarName . EltName <- Operand 
(kind:eltasgn,left: VarName , e1t : EltName ,opd: Operand> 


* VarName.EltName «- Operand 
<kind: indeltasgn, left: VarName , elt: EltName ,opd: Operand> 


goto Label 
<kind: goto, 1b1: Label» 


if Operandl Binop Operand2 goto Label 
<kind: binif , opr: Binop ,opd1: Operand1 , opd2: Operand2 ,1b1: Label? 


if Unop Operand goto Label 
<kind: unif ,opr: Unop ,opd: Operand ,1b1: Label) 


if Operand goto Label 
<kind: valif ,opr: Operand ,1b1: Label) 


if Operandl Binop Operand2 trap Integer 
(kind: bintrap, opr: Binop,opd1: Operand! , opd2: Operand2 ,trapno: Integer) 


if Unop Operand trap Integer 
(kind:untrap,opr: Unop , opd: Operand , trapno: Integer) 


if Operand trap Integer 
(kind:valtrap,opr: Operand , trapno: Integer? 


call ProcName , COpd1 , TN1; ...;Opdn, TNn) 
Xkind:call,proc:ProcName , args : ICOpd1 , TN15,..., COpdn, TNn>]> 


VarName «-ProcName , (Opd!1 , TN1; ...; Opdn, TNn) 
Xkind:callasgn,left:VarName ,proc: ProcName, 
args: [COpd1, TN1),..., 《Opdn, TNn>]> 
return 
(kind: return) 


return Operand 

<xind: retval , opd: Operand> 
sequence 

(kind: sequence) 
VarName 

<kind: var ,val: VarName> 
Const (includes Integer) 

<kind: const , val : Const) 
TNi 

ptype: TNi 


ee 








Pi A 


码 。 


MIRKind = enum { 
label, receive, 
condasgiü, 
goto, 
untrap, 
retval, 


binif, 
valtrap, 


castasgn, indasgn, 


sequence) 


binasgn, unasgn, 
eltasgn, 
unif, valif, 


call, 


OpdKind = enum ívar,const,type) 
ExpKind = enum (binexp,unexp,noexp,listexp) 
Exp.Kind: MIRKind —> ExpKind 
Has.Left: MIRKind 一 > boolean 


Exp.Kind := { 
<label ,noexp>, 
(unasgn,unexp?, 
<castasgn,unexp>, 


«receive ,noexp), 
<valasgn,unexp>, 
<indasgn,unexp>, 


Xindeltasgn,unexp?, <goto,noexp), 


《unif ,unexp>, 
<untrap,unexp>, 


(callasgn,listexp?, 


(sequence ,noexp>} 


Has Left :- ( 
《label,false)， 
(unasgn,true), 
<castasgn,true), 
<indeltasgn,true>, 
《unif ,false>, 
<untrap,false>, 
(callasgn,true), 
(sequence, false?) 


(valif,unexp?, 
(valtrap,unexp?, 
(return,noexp?, 


(receive,true), 
<valasgn,true>, 
<indasgn,true>, 
(goto, false), 

<valif ,false)>, 

(valtrap,false?, 
<return, false), 
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valasgn, 
indeltasgn, 
bintrap, 


callasgn, return, 


《binasgn,binexp>， 
(condasgn,unexp?, 
<eltasgn,unexp>, 
<binif ,binexp>, 
<bintrap,binexp>, 
<call,listexp), 
<retval,unexp>, 


<binasgn, true), 
<condasgn,true>, 
<eltasgn,true>, 
<binif ,false), 

(bintrap,false), 
(call,false), 

(retval,false), 


图 4-8 用 于 确定 MIR 指 令 特 征 的 类 型 和 函数 


Exp_Kind(k) 指 出 类 别 为 的 一 条 MIR 指 令 是 否 含有 一 个 二 元 表达 式 、 一 元 表达 式 、 表 达 
式 系列 或 没有 包含 表达 式 。Has_Left (k) 在 类 别 为 的 MIR 指 令 有 一 个 left 域 时 返回 true; 
否则 返回 false。 从 现在 起 一 直到 需要 用 到 第 12 章 中 介绍 的 过 程 的 基本 块 结构 之 前 ， 我 们 都 用 
数组 Inst [1. .z] 来 表示 中 间 代 码 的 指令 序列 ， 其 中 z 为 某 个 整数 ， 该 数组 的 声明 为 


Inst: array [1..n] of Instruction 


例如 ，MIR 指 令 序 列 
L1:b + a 
c-bt*1 


对 应 的 元 组 组 成 的 数组 表示 为 
Inst[i] = (kind:1abel,1b1:"L1") 


Inst[2] = (kind:valasgn,left:"b",opd: (kind:var,val:"a")) 
Inst[3] = <kind:binasgn,left:"c",opr:add, 
opdi: (kind: var ,val:"b">, opd2: (kind: const ,val:1)>> 


图 4-9 给 出 了 用 ICAN 元 组 表示 的 图 4-6 中 名 为 insert_node 的 第 二 个 程序 单元 体 的 MIR 代 


注音 ， 出 现在 call 或 callasgn 指 令 参数 表 中 的 TNi 是 类 型 名 : 偶 对 <Opdi，TNi> 指 出 第 i 
个 参数 的 值 和 类 型 。 
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Inst[1] (kind:receive,left:"n",ptype:val? 
Inst[2] (kind:receive,left:"l",ptype:val) 
Inst [3] (kind:binasgn,left:"ti",opr:indelt, 
opdi: (kind: var,val:1), 
opd2: (kind: const , val: "value">> 
Inst [4] <kind: binif , opr:1seq,opd1:<kind:var,val:"n">, 
opd2: kind: var,val:"ti">,1b1:"Li"> 
Inst [5] «kind: binasgn,left:"t2" ,opr:indelt, 
opdi: (kind:var,val:15, 
opd2: (kind: const, val: "value">)> 
Inst [6] (kind:if,opr:neql,opdi:(kind:var,val:"t2"), 
opd2: (kind: const, val :nil>,1b1:"L2"> 
Inst [7] <kind:call,proc: "make, node", 
args: [(Xkind:var,val:"t3"5,ptype:typel?, 
XXkind:var,val:"n"),ptype:int)]) 
Inst[8] = <kind:return) 
Inst (9] = (kind:label,lbl:"L2") 
Inst[10] = (kind:binasgn,left:"t4",opr:indelt, 
opdi:(kind:var,val:"l"), 
opd2: (kind:const,val:"next")) 
Inst [11] <kind:call,proc:"insert_node", 
args: (<<kind:var,val:"n">,ptype: int), 
<<kind:var,val:"t4")>,ptype:type1>]> 
Inst [12] <kind: return> 
Inst [13] = (kind:label,lbl:"L1") 
Inst [14] = <kind:return> 





图 4-9 图 4-6 中 MIR 程 序 单元 insert_node 的 ICAN 元 组 表示 


4.7.2 用 ICAN 表 示 HIR 


用 ICAN 表 示 HIR 基 本 上 同 MIR 一 样 处 理 ， 表 4-8 展 示 了 HIR 指 令 与 ICAN 元 组 之 闻 的 对 应 关 
系 、 并 隐 式 声明 了 类 型 HIRInst。HIR 不 需 额外 的 运算 符 ， 所 以 我 们 用 TROPer 来 表示 它 的 操 


作 数 类 型 。 


表 4-8 不 在 MIR 中 的 HIR 指 令 的 ICAN 表 示 
for VarName «- Operand1 by Operand2 to Operand3 do 
(kind: for, left: VarName ,opdi : Operand1 ,opd2: Operand2 , opd3: Operand3> 


endfor 
<kind: endfor > 


if Operand1 Binop Operand2 then 


<kind: strbinif , opr: Binop, opd1: Operand1 , opd2: Operand2) 


if Unop Operand then 
(kind: strunif , opr: Unop ,opd: Operand)> 


if Operand then 
<kind:strvalif ,opd: Operand? 


else 
(kind: else> 


endif 
<xind: endif > 


VarName LExpr1 , . . . ,Exprn] < Operandl Binop Operand2 
(kind: arybinasgn, left: VarName, subs: (Expr1,...,Expra] ,opr: Binop, 
opd1: Operand!1 , opd2: Operand2> 
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( 续 ) 


VarName[Expr1,...,Exprn] «- Unop Operand 
(kind:aryunasgn,left: VarName , subs: [Expr1, . . . ,Exprn) ,opr: Unop, 
opd: Operand> 


VarName|Expr1,... ,Exprn] < Operand 
Xkind:aryvalasgn,left: VarName ,subs: [Expr1, ... ,Exprn) ,opd: Operand> 


VarNamelExpr1,... ,Exprn] 
€kind:aryref , var: VarName subs: [Expr1, . . . ,Exprn]? 





枚 举 类 型 HIRKind、HIROpPdKind 和 HIRExpKind， 以 及 国 数 EBIR_Exp_Kind() 和 
HIR_Has_Left( ) 的 定义 如 图 4-10 所 示 ， 它 们 与 MIR 稍 有 不 同 。 


HIRKind = enum { 
label, receive, 
condasgn, castasgn, 
goto, trap, 
retval, sequence, 
strunif, strvalif, 
aryunasgn, aryvalasgn} 


binasgn, unasgn, 
indasgn, eltasgn, 
call, callasgn, 
for, endfor, 
else, endif, 


valasgn, 
indeltasgn, 
return, 
strbinif, 
arybinasgn, 


HIROpdKind = enum (var,const,type,aryref) 
HIRExpKind = enum {terexp,binexp,unexp,noexp, listexp} 
HIR.Exp Kind: HIRKind —> HIRExpKind 





HIR Has Left: HIRKind —> boolean 


HIR Exp.Kind := ( 
《label,noexp， 
(binasgn,binexp?, 
(valasgn,unexp?, - 
<castasgn,unexp>, 
<eltasgn,unexp>, 
<goto,noexp>, 
<call,listexp>, 
<return,noexp>, 
<sequence ,noexp>, 
<endfor ,noexp>, 
<strunif ,unexp>, 
<else,noexp), 
<arybinasgn, binexp> 
(aryvalasagn,unexp? 

} 


HIR_Has_Left := { 
<label ,false>, 
<binasgn,true>, 
<valasgn,true), 
<castasgn, true), 
<eltasgn,true>, 
<goto,false>, 
<call,false>, 
(return,false), 
<sequence,false>, 
«endfor ,false)>, 
<strunif ,false>, 
<else,false>, 
<arybinasgn,true), 
<aryvalasagn,true> 





(receive,noexp?, 
<unasgn,unexp>, 
<condasgn,unexp), 
<indasgn,unexp>, 
<indeltasgn,unexp>, 
<trap,noexp>, 
<callasgn,listexp>, 
<retval,unexp>, 
<for,terexp>, 
(strbinif,binexp?, 
(strvalif,unexp?, 
《endif ,noexp， 

, <aryunasagn,unexp>, 


<receive,true>, 
<unasgn,true>, 
<condasgn,true>, 
<indasgn,true>, 
(indeltasgn,true), 
(trap,false), 
<callasgn,true>, 
《retval ,false>， 
(for,true?, 
<strbinif ,false>, 
<strvalif ,false)>, 
《endif ,false>, 
(aryunasagn,true), 


图 4-10 确定 HIR 指 令 特 征 的 CAN 类 型 和 函数 
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HIR Exp Kind (k) 指 出 一 个 类 别 为 :的 HIR 指 令 是 否 包含 一 个 三 元 表达 式 。、 二 元 表达 
式 、 一 元 表达 式 、 表 达 式 表 或 没有 包含 表达 式 。HIR_Has_Left (上 ) 在 类 别 为 的 HIR 指 令 有 
left 域 时 返回 true; 否则 返回 false。 

4.7.3 用 ICAN 表 示 LIR 

表 4-9 给 出 了 LIR 指 令 和 ICAN 结 构 之 间 的 对 应 关系 ， 其 中 最 后 三 项 表示 操作 数 。 与 用 ICAN 

表示 MIR 和 HIR 代 码 一 样 ， 我 们 用 类 型 ITRoper 表 示 LIR 运 算 符 。 
表 4-9 LIR 指 令 的 ICAN 表 示 





Label: 
(kind:label,lbl:Label) 


RegName < Operand1 Binop Operand2 
«kind: regbin, left : RegName, opr: Binop, opal: Operand1 ,opd2: Operand2» 


RegName < Unop Operand 
(kind: regun, left: RegName ,opr : Unop ,opd: Operand) 


RegName «- Operand 
Xkind:regval,left:RegName ,opd: Operand) 


RegName1 «- (RegName2) Operand 
«kind: regcond, left : RegNamel1 , cond: RegName2 ,opd: Operand 


RegName (Integer , Integer2) «- Operand 
Xkind:regelt,left:RegName , fst: Integer1 ,blen: I; nteger2 ,opd: Operand> 


MemAddr < Operand 
<kind: stormem, addr: tran(MemAddr) ,opd: Operand> 


RegName «-MemAddr 
Xkind:loadmen,left: RegNarme , addr: tran( MemAddr) » 


goto Label 
<kind: goto ,1b1: Label» 


goto RegName + Integer 
(kind: gotoaddr , reg: RegName , disp: Integer) 


if Operand1 Binop Operand2 goto Label 

(kind: regbinif ,opr: Binop , opd1: Operand1 , opd2: Operand2 ,1b1: Label) 
if Unop Operarid goto Label 

<kind: regunif ,opr: Urtop ,opd: Operand ,1b1: Label) 
if Operand goto Label 

<kind: regvalif ,opr: Operand ,1b1: Label» 


if Operand1 Binop Operand2 trap Integer 
«kind: regbintrap, opr: Binop ,opd1: Operand! ,opd2: Operand2, 
trapno: Integer) 


if Unop Operand trap Integer 
<kind: reguntrap, opr: Unop ,opd: Operand , trapno: Integer? 


if Operand trap Integer 
<kind: regvaltrap, opr: Operand ,trapno: Integer) 


call ProcName , RegName 
kind: callreg, proc: ProcName ,rreg: RegName)> 


call RegName1 , RegName2 
Xkind:callreg2,creg:RegNamel,rreg:RegName2» 





O 只 有 for 指 令 含有 三 元 表达 式 。 
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( 续 ) 


RegName1 < call ProcName, RegName2 
<kind: callregasgn, left : RegNamel , proc: ProcName ,rreg: RegName2> 


RegName1 < call RegName2 , RegName3 
<kind: callreg3, left: RegNamel , creg: RegName2 ,rreg: RegName3)> 


return 
<kind: return) 


return Operand 
(kind: retval ,opd: Operand> 


sequence 
<kind: sequence) 


RegName 
<kind:regno,val : RegName> 


Const (includes Integer) 
<kind: const , val: Const? 


TypeName 
<kind: type , val: TypeName) 





PBOEÉXCRÜULIRKind. LIROpdKind#ILIRExpKind, LAR MALIR_Exp_Kind() 
LIR_Has_Left( ) 的 声明 如 图 4-11 所 示 。LIR_Exp_Kind(k) 指 出 类 别 为 的 一 条 LIR 指 令 是 
否 包 含 二 元 表达 式 、 一 元 表达 式 或 没有 包含 表达 式 。 如 果 类 别 为 的 一 条 LIR 指 令 有 left 域 ， 
LIR Has_Left(k) 返 回 true; 否则 返回 false。 


























LIRKind = enum { 
label, regbin, regun, regval, regcond, 
regelt, stormem, loadmem, goto, gotoaddr, 
regbinif, regunif, regvalif, regbintrap, reguntrap, 
regvaltrap, callreg, callreg2, callregasgn, callreg3, 
return, retval, sequence) 









LIROpdKind = enum (regno,const,type) 
LIRExpKind = enum {binexp,unexp,noexp} 
LIR Exp Kind: LIRKind 一 > LIRExpKind 
LIR.Has Left: LIRKind 一 > boolean 





LIR Exp Kind := { 






Qabel,noexp?, <regbin,binexp), 
<regun,unexp>, (regval,unexp?, 
(regcond,unexp?, (regelt,unexp?, 
<stormem,unexp), <loadmem ,noexp), 
€goto,noexp?, (gotoaddr,noexp?, 
(regbinif,binexp?, <regunif,unexp), - 
(regvalif unexp), (regbintrap,binexp?, 
<reguntrap,unexp>, (regvaltrap,unexp?, 
<callreg,noexp), (callreg2,noexp?, 
<callregasgn,noexp>, <callreg3,noexp>, 
(return,noexp?, (retval,unexp), 
(sequence ,noexp)} 
LIR Has, Left :- ( 

<label,false>, <regbin,true>, 

<regun,true)>, <regval,true), 





<regcond, false), 《regelt ,false>, 


图 4-11 确定 LIR 指 令 特征 的 ICAN 数 据 类 型 和 函数 
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(stormem,false), <loadmem,true>, 
(goto, false), <gotoaddr, false), 
<regbinif ,false>, <regunif ,false>, 
<regvalif ,false>, <regbintrap,false>, 
<reguntrap, false), <regvaltrap,false>, 


<callreg, false), <callreg2,false), 
<callregasgn,true), <callreg3,true), 
(return, false), (retval,false), 
(sequence, false?) 





图 4-11 (4%) 


BAF 


RegName 操 作 数 的 值 可 以 是 整数 寄存 器 (Ari). PARSER OBAT) 或 符号 寄存 器 


( 记 为 si)。 由 


RegType = enum {reg, freg, symreg} 
Reg Type: Register > RegType 


表 4-10 ”存储 器 地 址 表示 ( 表 4-9 中 记 为 tcan (MemAddr)) 


[RegName] (Length) 
<kind: addrir,reg: RegName, len: Lengthy 


[RegName1*RegName2] (Length) 
Xkind:addr2r,reg: RegNamel1 ,reg2: RegName2 , len: Lengthy 


[RegName* Integer] (Length) 
Xkind:addrrc,reg: RegName , disp: Integer , len: Lengthy 


例如 ， 图 4-12 所 示 的 LIR 代 码 ， 其 对 应 的 ICAN 结 构 序 列 如 图 4-13 所 示 。 


< {r7+4] 
< [r7+r8] 
<- ri+r2 
*- -r3 


r3 > 0 goto L2 

<(r9) ri 
tr7-8] (2) € r5 
return r4 





图 4-12 用 ICAN 元 组 表示 的 LIR 代 码 例子 














Inst[1] = <kind:label,lbl:"L1"> 
Inst(2] = (kind: loadmem,left:"ri", 
addr: <kind:addrrc,reg:"r7" ,disp:4,1len:4)>> 
Inst[3] = <kind:loadmem,left:"r2", 
addr : (kind: addr2r , reg: "r7" ,reg2:"r8" ,1en:4>> 
Inst (4) = <kind:regbin, left :"r3" ,opr:add,opd1:<kind:regno, 
val:"ri">,opd2: <kind: regno, val: "r2">> 
Inst[5] = <kind:regun,left:"r4",opr:neg, 
opd: (kind: regno ,val:"r3">> 
Inst(6] = <kind:regbinif,opr:grtr, 


opd1:<kind:regno,val:"r3"), 
opd2:<kind: const ,val:0>,1b1:"L2"> 
(kind:regcond,left:"r5", sel: "r9", 






Inst [7] 


图 4-13 与 图 4-12 中 LIR 代 码 对 应 的 ICAN 元 组 序列 


声明 的 枚 举 类 型 和 函数 可 用 来 区 分 这 三 种 寄存 器 。 存 储 器 地 址 (在 表 4-9 中 表示 为 tran 
(MemAddr)) 的 表示 如 表 4-10 所 示 。 
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opd: <kind: regno, val:"r1">) 
Inst [8] (kind:stormem, 
addr: (kind:addrrc,reg:"r7",disp:-8,1en:25, 


opd: <kind:regno,val:"r5">> 
Inst [9] <kind: label ,1b1:"L2"> 
Inst [10] <kind:retval, opd: (kind: regno,val:"r4">> 





图 4-13 (4%) 


48 管理 中 间 代 码 的 着 干 数据 结构 和 例 程 的 CAN 命 名 


在 后 边 的 叙述 中 ， 我 们 都 把 过 程 看 成 是 由 若干 数据 结构 组 成 的 ， 这 些 数据 结构 如 下 : 

1. ProcName: Procedure， 过 程 的 名 字 。 

2.nblocks: integer， 组 成 该 过 程 的 基本 块 的 个 数 。 

3.ninsts: array[1..nblocks] of integer, 一 个 数组 ， 对 于 = 1，…， 
nblocks，ninsts[i] 是 基本 块 中 的 指令 条 数 。 

4.Block, LBlock: array[1..nblocks] of array[..] of Instruction,— 
个 数组 ， 其 元 素 是 构成 基本 块 的 MIR 或 HIR 指 令 组 成 的 数组 (对 于 Block )， 或 LIR 指 令 组 成 的 
数组 (M-FLBlock), Hl, Block[i][1 .. ninsts[i]] 是 基本 块 i 中 的 指令 组 成 的 数组 ， 
LBlock žiti. 

5. Succ, Pred: integer>set of integer， 了 映射 每 一 个 基本 块 索 引 ;分别 到 基本 
块 ;的 前 驱 或 后 继 基本 块 索引 集合 的 函数 。 

在 个 别 情况 下 ， 如 稀有 条 件 常数 传播 (12.6 节 ) 和 基本 块 指令 调度 〈17.1 节 5 )， 我 们 关注 的 
是 每 一 条 单独 的 指令 而 不 是 基本 块 ， 因 此 会 使 用 稍微 不 同 的 命名 约定 。 

图 4-14 中 定义 的 过 程 

insert_before(i,j,ninsts ,Block, inst) 


insert after(i,/,ninsts,Block,inst) 
append, block(i,ninsts,Block,inst) 


插入 指令 ist 于 Block[i] [7 之 前 或 之 后 ， 或 追加 inst 在 Block [ 订 末 尾 ， 并 相应 地 调整 数据 结 
构 。 注 意 ， 如 果 最 后 一 条 指令 是 goto 或 1f， 则 请 求 插入 一 条 指令 于 基本 块 的 最 后 一 条 指令 之 
后 需要 特殊 处 理 一 一 即 ， 该 指令 要 插入 在 控制 转移 指令 之 前 。 


procedure insert before(i,j,ninsts,Block,inst) 
i, j: in integer 
ninsts: inout array [::] of integer 
Block: inout array [::] of array [::] of Instruction 
inst: in Instruction 
begin 
{| insert an instruction after position j in block i 
I| and adjust data structures accordingly 
k: integer 
for k := j to ninsts[i] do 
Block[i][k*1] := Block[i] [k] 
od 
ninsts[i] += 1 
Block[i] [j] := inst 
end || insert before 


图 4-14 插入 一 条 指令 至 基本 块 中 某 给 定位 置 之 前 或 之 后 ， 或 添加 一 条 指令 到 基本 
块 末 尾 的 ICAN 例 程 insert before()、insert_after() 和 append_block() 
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procedure insert after(i,j,ninsts,Block,inst) 
i, j: in integer 
ninsts: inout array [::] of integer 
Block: inout array [::] of array [::] of Instruction 
inst: in Instruction 


insert an instruction after position j in block i 
end adjust data structures accordingly 
: integer 

j = ninsts[i] & Control Transfer(Block(il[j]) then 
ninsts[i] :» j += 1 . 
Block(il[j] := Block[il[j-1 
Block[i][j-1] := inst 

else 
for k := j*1 to ninsts[i] do 

Block[il(k*1] := Block[i] [k] 

od 
ninsts[i] += 1 
Block[i][j*i] := inst 

fi 

end || insert after 


procedure append, block(i,ninsts,Block,inst) 
i: in integer 
ninsts: inout array [::] of integer 
Block: inout array [--] of array [--] of Instruction 
inst: in Instruction 


begin 
|| add an instruction at the end of block i 
insert, after(i,ninsts[i],Block,inst) 

end || append. block 


图 4-14  (£&) 





”图 4-15 中 定义 的 例 程 


delete inst (i, j, nblocks, ninsts, Block, Succ, Pred) 
从 基本 块 :中 删除 指令 ij， 并 调整 用 于 表示 程序 的 其 他 数据 结构 。 


procedure delete, inst (i,j,nblocks,ninsts,Block,Succ,Pred) 
i, j: in integer 
nblocks: inout integer 
ninsts: inout array [--] of integer 
Block: inout array [::] of array [::] of Instruction 
Succ, Pred: inout integer —» set of integer 
begin . 
|! delete instruction j from block i and adjust data structures 
k: integer 
for k := j to ninsts{i]-1 do 
Block[il[k] := Block[i] [k*1] 
od 
ninsts[i] -- 1 
if ninsts[i] = 0 then 
delete block(i,nblocks,ninsts,Block,Succ,Pred) 














fi 





end || delete inst 


图 4-15 从 基本 块 中 指定 位 置 删 除 一 条 指令 的 ICAN 例 程 delete_inst() 
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图 4-16 中 定义 的 例 程 


insert block(i, j, nblocks, ninsts, Succ, Pred) 
通过 在 基本 块 i 和 j 之 间 插 入 一 个 新 的 基本 块 而 分 裂 边 i 一 j。 


procedure insert_block(i,j,nblocks,ninsts,Succ,Pred) 
i, j: in integer 
nblocks: inout integer 
ninsts: inout array [--] of integer 
Succ, Pred: inout integer —> set of integer 
begin 
i! insert a new block between block i and block j 
nblocks *- 1 
ninsts[nbiocks] := 0 
Succ(i) := (Succ(i) u {nblocks}) - {j} 
Succ(nblocks) := {j} 
Pred(j) := (Pred(j) v {nblocks}) - {i} 
Pred(nblocks) := {i} 
end {| insert. block 














图 4-16 通过 播 和 人 一 基本 块 于 两 个 指定 的 基本 块 之 间 来 分 裂 一 条 边 的 ICAN 例 程 insert_block() 
图 4-17 中 定义 的 例 程 


delete block(i, nblocks, ninsts, Block, Succ, Pred) 
删除 基本 块 i， 并 调整 表示 程序 的 数据 结构 。 


procedure delete block(i,nblocks,ninsts,Block,Succ,Pred) 
i: in integer 
nblocks: inout integer 
ninsts: inout array [--] of integer 
Block: inout array [-:] of array [--] of Instruction 
Succ, Pred: inout integer —> set of integer 
begin ' 
|| delete block i and adjust data structures 
j. X: integer : 
if i € Succ(i) then 
Succ(i) -= {i} 
Pred(i) -= {i} 
fi 
for each j € Pred(i) do 


Succ(j) := (Succ(j) ~ {i}) u Succ(i) 
od 
for each j € Succ(i) do 

Pred(j) := (Pred(j) - (iP) uv Pred(i) 
od 


nblocks -- i 
for j := i to nblocks do 

Block[j] := Block[j*1] 

Succ(j) := Succ(j*1) 

Pred(j) := Pred(j*1) 
od 
for j := 1 to nblocks do 

for each k € Succ(j) do 

if k » i then 
Succ(j) := (Succ(j) - {k}) u (k-1) 


图 4-17 删除 一 个 空 基本 块 的 ICAN 例 程 delete _ block() 
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fi 
od 
for each k € Pred(j) do 


if k > i then 
Pred(j) := (Pred(j) - (kJ) v {k-1} 
fi 
od 
od 
end |] delete block 





图 4-17 (2X) 


4.9 其 他 中 间 语 言 形式 


这 一 节 我 们 介绍 在 中 级 中 间 代 码 组 成 的 基本 块 中 指令 的 另外 几 种 可 选 表示 (CB: 三 元 式 、 
树 、 有 向 图 或 DAG， 以 及 前 组 波兰 表示 )， 讲 述 如 何 将 它们 转换 为 MIR， 以 及 相对 MIR 的 优 缺 
点 。 与 MIR 中 使 用 的 形式 相似 ， 在 编译 前 端的 输出 中 ， 将 基本 块 连接 起 来 的 控制 结构 最 常用 的 
是 简单 地 使 用 goto、iE 和 标号 语句 。 这 种 控制 结构 将 一 直 保 存 到 控制 流 分 析 〈 参 见 第 7 章 )， 
以 便 提 供 过 程 内 控制 流 特征 的 更 多 信息 ， 如 一 组 基本 块 是 否 形成 了 if-then-else 结 构 、 
while 循 环 或 其 他 结构 。 

另外 两 种 更 进一步 的 重要 中 间 代 码 形 式 是 静态 单 赋值 形式 和 程序 依赖 图 ，8.11 节 和 9.5 节 将 
描述 它们 。 

首先 ， 请 注意 ， 我 们 用 于 MIR 的 形式 以 及 与 它 有 关 的 表示 并 不 是 传统 的 四 元 式 形式 ， 传 统 
的 形式 是 运算 符 在 先 ， 然 后 是 三 个 操作 数 ， 通 常 结果 操作 数 在 前 面 ， 因 此 ， 

tl ~ x + 3 
典型 地 书写 为 

+ tl,x,3 

我 们 选择 使 用 运算 符 在 中 间 的 形式 ， 因 为 它 易于 了 阅读。 此外， 这 里 所 示 的 形式 是 为 外 部 或 
打印 表示 而 设计 的 ， 而 前 面 讨论 的 对 应 的 ICAN 形 式 可 看 作 是 内 部 表示 ， 即 使 它 是 为 方便 阅读 
而 设计 的 一 一 假如 它 是 真正 的 内 部 形式 ， 其 表示 会 更 为 紧凑 ， 且 其 中 的 符号 很 可 能 被 指向 符号 
表 项 的 指针 所 替代 。 | 

还 应 注意 到 ， 本 节 提 到 的 这 些 可 选 表示 中 没有 一 个 是 固定 只 能 表示 中 级 语言 的 一 一 它们 也 
有 具有 等 价 的 低级 表示 能 力 。 

图 4-18a 给 出 了 一 段 MIR 代 码 ， 我 们 将 用 它 作 为 与 其 他 形式 的 代码 进行 比较 的 例子 。 

49.1 三 元 式 

三 元 式 与 四 元 式 相似 ,但 三 元 式 的 结果 没有 被 显 式 命名 ， 而 是 使 用 隐 含 的 名 字 。 当 其 他 三 
元 式 需 要 其 结果 作为 操作 数 时 ， 它 们 引用 的 是 三 元 式 的 编号 。 此 外 ， 由 于 在 三 元 式 中 没有 表示 
结果 的 变量 或 存储 位 置 ， 因 此 ， 需 要 保存 结果 时 必须 有 显 式 的 存 数 操作 。 例 如 ， 我 们 可 以 用 
“a sto 5” 表示 存储 5 到 位 置 c, “a *sto b” 表 示 通 过 指针 a 的 间接 存 数 。 在 内 部 表示 中 ， 
三 元 式 的 编号 通常 是 指向 对 应 三 元 式 的 指针 ， 或 者 是 相应 三 元 式 的 索引 号 。 这 种 做 法 对 于 三 元 
式 的 插入 和 删除 而 言 都 比较 复杂 ， 除非 控制 转移 的 目标 地 址 是 表示 过 程 基本 块 结构 的 结 点 ， 而 


[96] 不 是 对 具体 三 元 式 的 引用 。 


在 外 部 表示 中 ， 三 元 式 编号 通常 置 于 括号 之 中 ， 并 列 在 每 一 行 的 开始 。 在 三 元 式 中 用 同样 
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的 形式 来 引用 它们 ， 这 种 形式 易于 使 它们 与 整 型 常数 区 别 开 来 。 图 4-18b 给 出 了 图 4-18a 中 MIR 
代码 对 应 的 一 种 三 元 式 转换 。 
将 三 元 式 转换 为 四 元 式 ， 或 将 四 元 式 转换 


Li: ie i+ i+ 1 


i sto (1) 


回 三 元 式 的 过 程 比较 简单 。 从 四 元 式 转换 到 三 teirr iei 
元 式 需要 用 三 元 式 编号 来 替换 临时 变量 和 标号 ， 村 Po 
并 引入 具有 显 式 存储 操作 的 三 元 式 。 反 过 来 ， p< t2 p sto (4) 
从 三 元 式 到 四 元 式 的 转换 则 用 临时 变量 和 标号 cn vo () 
替换 三 元 式 编号 ， 并 且 存 储 操 作 三 元 式 将 因 被 1f t4 goto Lt it (7), (4) 





归并 到 计算 其 存储 结果 的 四 元 式 中 而 被 消除 。 

使 用 三 元 式 除了 能 够 使 代码 生成 之 前 创建 基 NM 
本 块 的 DAG (参见 493 节 ) 以 及 实现 局 部 值 编号 CU 四 用 于 与 其 他 中 间 形 式 进行 比较 的 
(83.124.135) 的 工作 较为 简单 外 ， 对 优化 没有 MIR 代 码 ，b) 它 的 三 元 式 形式 
特别 的 好 处 。 三 元 式 直接 引用 三 元 式 作为 它 的 操作 数 ， 因 而 简化 了 对 一 个 结 点 的 后 裔 的 判别 。 
49.2 树 


用 树 表示 中 间 代 码 有 两 种 可 选 的 形式 : 一 种 是 在 树 中 使 用 一 个 显 式 赋值 运算 符 ， 另 一 种 是 


a) b) 


用 一 个 结果 变量 (或 多 个 变量 ) 来 标记 一 个 表 < 

达 式 计算 的 根 结 点 ， 分 别 如 图 4-19a 和 b 所 示 。 这 LN 

种 选择 与 使 用 三 元 式 或 四 元 式 有 点 相似 。 我 们 i add i:add 
选择 使 用 第 二 种 形式 ， 因 为 它 比 前 一 种 形式 更 JN 

接近 于 下 一 小 节 要 讨论 的 DAG 形 式 。 我 们 用 图 i i i i 
4-6 中 给 出 的 构成 ICAN 类 型 TROper 的 运算 名 来 a) b) 

标记 内 部 结 点 。 4-19 树 的 可 选 形式 : a) 具有 显 式 赋值 运算 符 ， 


树 在 中 间 代码 中 几乎 总 是 用 来 表示 那些 完 OE 
成 无 控制 流 计算 的 代码 部 分 ， 而 控制 流 则 通过 O An ee eee 
将 树 相 互 连 接 到 一 起 的 形式 来 表示 ， 图 4-20 说 明了 图 4-18a 的 (无 控制 流 ) MIR 代 码 对 应 的 树 形 
式 . 注意 ， 这 个 转换 本 身 实际 上 是 没有 用 的 一 它 为 每 个 四 元 式 产 熏 樟树 ， 这 并 没有 比 四 元 
式 提供 更 多 或 更 少 的 信息 。 


i:add ti:add t2:add t3:ind p:t2 t4:less  r:indasgn 


AAA 


图 4-20 图 4-18a 中 无 控制 流 MIR 代 码 到 简单 树 序列 的 转换 


较 好 的 一 种 转换 可 以 判别 出 第 二 棵 树 计 算出 的 t1 只 作为 第 六 棵 树 的 操作 数 使 用 ， 而 且 由 
于 t1 是 临时 变量 ， 因 此 如 果 将 第 二 棵 树 嫁接 到 第 六 棵 树 t1 出 现 的 地 方 ， 就 没有 必要 存储 t1。 
类 似 地 ， 也 可 以 将 第 三 棵 树 与 第 五 棵 树 合并 。 但 是 ， 第 四 棵 树 不 能 嫁接 到 第 七 棵 上 去 ， 因 为 在 
它们 之 间 改 变 了 p 的 值 。 执 行 这 种 转换 的 结果 产生 如 图 4-21 所 示 的 一 组 树 。 





P ti 10 t3 


这 种 树 表 示 形 式 比 四 元 式 有 一 些 明显 的 优点 : (1) 它 删 除了 两 个 临时 变量 (t1l 和 t2) 以 


及 对 它们 的 存储 操作 ; (2) 它 为 12.3.1 节 将 讨论 的 代数 化 简 提 供 了 所 希望 的 输入 形式 ; (3) 
通过 利用 Sethi-Ulliman 数 ， 可 以 由 它 生 成 适合 许多 体系 结构 的 局 部 优化 代码 ，Sethi-Ullman 数 规 
定 了 在 生成 指令 时 为 使 所 用 寄存 器 个 数 最 少 而 应 当 遵循 的 顺序 ; (4) 它 提供 了 一 种 易于 转换 
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成 前 缀 波兰 代码 (参见 4.9.4 节 ) 的 形式 ， 这 种 前 缀 波兰 代码 适宜 作为 语法 制导 的 代码 生成 器 的 
A (16.24). . 

将 四 元 式 转换 为 树 依 所 做 工作 的 不 同 而 不 同 ， 就 像 图 4-20 和 图 4-21 给 出 的 树 序列 一 样 。 转 
换 到 第 一 种 形式 是 显然 的 ， 而 第 二 种 形式 可 以 看 成 是 对 第 一 种 形式 的 优化 。 我 们 惟一 需要 小 心 
的 是 ， 在 嫁接 一 棵 树 到 序列 中 的 另 一 棵 树 时 ， 必 须 保证 在 它 原来 的 位 置 和 它 要 嫁接 到 的 位 置 之 
间 ， 没 有 使 用 第 一 棵 树 结 点 标记 的 结果 变量 ， 并 且 没 有 重新 计算 其 操作 数 。 

注意 ， 有 两 种 不 同 的 原因 可 能 导致 MIR 指 令 序 列 对 应 的 不 是 单一 的 一 棵 树 一 一 它们 本 来 就 
不 能 连接 成 一 棵 树 ， 或 者 由 于 计算 一 条 指令 多 次 而 不 仅 是 一 次 所 致 。 作 为 后 一 种 情况 的 例子 ， 
下 列 代码 序列 

a-a+l 

beata 
将 产生 如 图 4-22 所 示 的 树 ， 这 棵 树 对 应 于 计算 第 一 条 指令 两 次 ， 不过， 我 们 可 以 从 第 二 个 “a: 
add” 结 点 去 掉 其 标记 。 


t4:less b:add 


i:add t3:ind p:add add 10 r:indasgn a:add a:add 


i 1 P P 4 i 1 t3 ÁN a 1 
图 4-21 图 4-18a 中 无 控制 流 MIR 代 码 的 最 小 树 形式 图 4-22 尝试 转换 MIR 指 令 a - a + 1; 


b — at a 为 单 棵 树 的 结果 


将 树 转换 为 四 元 式 是 简单 的 ， 我 们 可 以 按 前 序 饥 历 也 可 以 按 后 序 遍历 来 处 理 。 在 第 一 种 方法 
中 ， 按 树 的 出 现 顺序 对 每 一 棵 树 执行 前 序 遍 历 。 对 于 每 一 个 至 少 有 一 个 后 裔 ， 且 此 后 毅 也 是 内 部 


. 结 点 ( 即 非 叶 结 点 ) 的 内 部 结 点 ， 我 们 创建 一 个 新 临时 变量 ， 并 将 这 棵 树 从 连接 这 两 个 内 部 结 点 


的 边 的 位 置 一 分 为 二 (分 别称 为 “高 部 树 ” 和 “ 低 部 树 ”")， 用 这 个 新 郊 时 变量 标记 低 部 树 的 根 , 
并 将 这 两 棵 树 播 入 到 序列 中 原来 这 棵 树 的 位 置 〈 低 部 树 在 前 )。 高 部 树 则 用 新 临时 变量 替代 原 低 
部 树 的 位 置 而 得 到 修复 。 图 4-23 给 出 了 一 个 转换 的 例子 ， 这 个 例子 中 的 树 来 自 图 4-21。 当 不 再 有 
任何 内 部 结 点 具有 后 裔 时 ， 每 一 棵 树 便 对 应 于 单条 MIR 指 令 ， 剩 下 的 转换 过 程 就 简单 了 。 
t4:less 
t5:add  t4:less 


add 10 —» — t5 < i* 1 
t4 <— t5 < 10 


图 4-23 从 最 小 树 形式 到 MIR 代 码 的 转换 例子 
在 将 树 转换 为 MIR 的 第 二 种 方法 中 ， 我 们 对 给 定 的 树 执行 后 序 遍历 ， 为 每 一 棵 只 含有 一 个 
运算 符 的 子 树 生成 一 条 MIR 指 令 ， 并 用 这 条 MIR 指 令 的 左 端 替换 该 子 树 的 根 。 
49.3 无 环 有 向 图 (DAG) 
基本 块 的 DAG 表 示 可 以 看 作 是 对 最 小 树 序列 的 进一步 压缩 。DAG 的 叶子 表示 基本 块 中 所 
使 用 的 变量 和 常数 在 基本 块 和 人 口 时 的 值 ，DAG 的 所 有 其 他 结 点 都 表示 运算 ， 并 且 也 可 以 用 变 
量 名 做 标记 ， 以 指出 在 基本 块 内 计算 的 值 。 我 们 用 与 前 一 节 的 树 结 点 相同 的 画 法 表示 DAG 结 





vo] Ao 73 


点 。 图 4-24 为 一 个 基本 块 DAG 的 例子 ， 它 对 应 图 4-18a 的 前 7 条 指令 。 在 这 个 DAG 中 ,左下 角 的 
“add” 结 点 表示 MIR 赋 值 “i ~i+1”, 而 它 上 面 的 “add” 结 点 表示 计算 “i+1”。 这 个 计算 
结果 进而 与 10 相 比较 ， 由 此 计算 出 t4 的 值 。 注 意 ， 由 于 DAG 重 复 使 用 值 ， 因 此 ， 它 比 树 表 示 
和 线性 表示 要 更 为 紧凑 。 

为 了 转换 MIR 赋 值 指令 序列 到 DAG ， 我 们 按 顺 序 依次 处 理 这 些 指令 。 对 于 每 一 条 指令 ， 检 
查 它 的 每 一 个 操作 数 ， 看 是 否 已 经 有 一 个 DAG 结 点 表示 它 ， 如 果 还 没有 ， 则 为 它 创建 一 个 
DAG 叶 子 结 点 ， 然 后 检查 这 (两 ) 个 操作 数 的 结 点 是 否 有 表示 当前 运算 的 父 结 点 ， 如 果 没 有 ， 
则 创建 一 个 。 然 后 ， 用 结果 变量 名 标记 表示 结果 的 这 个 结 点 ， 同 时 从 DAG 中 以 此 名 字 作为 标 
记 的 其 他 结 点 中 删除 该 名 字 。 

图 4-25 是 MIR 指 令 序列 ， 它 对 应 的 DAG 如 图 4-26 所 示 。 在 这 个 DAG 中 ，neg 结 点 是 一 个 没 
有 带 标记 的 运算 符 结 点 〈 它 是 为 指令 4 而 创建 的 ， 指 令 4 原来 对 应 的 标记 是 Q， 但 之 后 这 个 标记 
被 指令 7 移 给 了 mul 结 点 )， 因 此 ， 不 需要 为 neg 结 点 生成 代码 。 





t4:less r:indasgn 1 
2 
ti:add 10 t3:ind 3 
4 
5 
i:add p:add 6 
/\ /\ 7 
i 1 p 4 
图 4-24 图 4-18a 中 无 控制 流 MIR 代 码 的 DAG 图 4-25 要 转换 为 DAG 的 MIR 代 码 基 本 块 例子 


如 前 面 提 到 的 ，DAG 形 式 对 于 执行 局 部 值 编号 有 帮助 ， 但 对 于 进行 其 他 大 多 数 优 化 ， 它 是 
一 种 相对 困难 的 形式 。 但 另 一 方面 ， 存 在 若干 结 点 列表 算法 ， 这 些 算法 能 够 指导 代码 生成 器 由 
DAG 生 成 相当 高 效 的 代码 。 

4.9.4 ”前缀 波兰 表示 

前 缀 波兰 表示 实质 上 是 对 树 形 式 作 前 序 遍 历 的 结果 ， 它 与 树 之 间 的 相互 转换 是 相当 直接 的 
递归 过 程 。 

对 于 图 4-21 所 给 的 最 小 树 序 列 ， 其 前 组 波兰 形式 是 如 图 4-27 所 示 的 代码 (注意 ， 我 们 假 
定 一 元 运算 结 点 的 后 裔 是 其 左边 那个 儿子 )。 例 如 ， 图 中 第 二 行 表示 的 是 一 个 一 元 赋值 BM 
值 的 左 端 为 t3， 右 端 是 对 P 间 接 操作 的 结果 。 


Deg b,c:add - 
S binasgn i add i 1 
unasgn t3 ind p 


d:mul add binasgn p add p 4 
S N "A binasgn t4 less add i 1 10 
-indasgn r t3 
2 a 1 
图 4-26 图 4-25 中 MIR 代 码 相 对 应 的 DAG 图 图 4-27 图 4-21 中 的 树 分 解 为 前 缀 波兰 形式 的 指令 


前 级 波兰 表示 最 有 用 的 地 方 是 作为 语法 制导 代码 生成 器 (参见 6.2 节 ) 的 输入 。 但 它 对 优 
化 不 太 有 用 ， 因 为 它 的 递归 结构 是 隐 式 的 。 
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本 节 讨 论 了 中 间 代 码 表示 的 设计 ， 对 照 比较 了 包括 抽象 语法 树 、 四 元 式 、 三 元 式 、 树 、 
DAG 和 前 绿 波 兰 表示 等 在 内 的 若干 种 表示 ， 并 选择 了 以 后 将 用 于 本 书 例子 的 三 种 表示 。 我 们 
选择 的 是 HIR、MIR 和 LIR， 并 且 给 出 了 这 三 种 表示 的 外 部 ASCII 形 式 和 内 部 ICAN 结 构 形式 。 

选择 中 间 代 码 形式 时 所 关心 的 因素 包括 它 的 表现 力 〈 表 达 相 关 概 念 的 能 力 ) ， 是 否 适合 实 
现 各 种 处 理 任务 ， 紧 次 性 和 访问 速度 《不 至 于 浪费 时 间 和 空间 )， 是 否 易于 从 源 程序 转换 到 中 
间 代码 并 从 中 间 代 码 转换 到 可 重 定位 机 器 语言 或 其 他 低级 形式 ， 以 及 它 的 开发 成 本 ， 是 否 已 经 
实现 了 它 或 实现 它 的 代价 。 

基本 的 MIR 适 合 于 大 多 数 优 化 (LIR 也 这 样 ) ， 而 较 高 级 的 HIR 适 合 于 依赖 分 析 《〈 第 9 章 ) 
以 及 基于 依赖 分 析 的 一 些 转换 ， 较 低级 的 LIR 用 于 需要 明确 指明 寄存 器 和 寻 址 的 优化 。 

另外 两 种 重要 的 中 间 代 码 形 式 ， 静 态 单 赋值 (SSA) 形式 和 程序 依赖 图 将 分 别 在 8.11 节 和 
9.5 节 讨论 。 我 们 在 若干 种 优化 中 将 使 用 静态 单 赋值 ， 这 些 优 化 包括 全 局 值 编 号 (12.4.2 节 ) 和 
稀有 条 件 常 数 传播 (12.60). 


4.11 进一步 阅读 


首次 讨论 Sethi-Ullman 数 的 论文 是 [SetU701， 较 新 的 论文 是 [AhoS86]。 
关于 HP 的 PA-RISC 编 译 器 的 主要 描述 参见 [CouH86]。 


4.12 练习 
4.1 构造 如 下 C 函 数 的 抽象 语法 树 表 示 。 


double sumorprod(a,n,i) 
double a[1001; 
int n; 
int i; 
{ double acc; 
int j; 
if (i == 0) 
{ acc = 0.0; 
for (j = 0; j < 100; j++) 
acc += a[jl; 
) else 
{ acc = 1.0; 
for (j = 99; j >= 0; j--) 
if (a[j] != 0.0) 
acc += alj]; 
} 


return acc; 


42 构造 练习 4.1 中 C 函 数 的 HIR 表 示 。 

43 构造 练习 4.1 中 C 函 数 的 MIR 表 示 。 

44 构造 练习 4.1 中 C 函 数 的 LIR 表 示 。 

45 构造 练习 4.3 中 MIR 代 码 的 ICAN 表 示 。 

4.6. 将 练习 4.3 中 C 函 数 的 MIR 表 示 转 换 成 (a) 三 元 式 ， (b) Bl, e) DAG 和 (d) 前 绥 波 
兰 表 示 。 
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*j—^-ICANBIfEMIR to Triples(n,Inst,TInst), 'ERTMIRISZ ARNS 
组 Inst[11,...,Inst[n] 至 三 元 式 组 成 的 数组 TInst[1],...,TInst[m], 并 用 
im 作为 返回 值 。 假 设 表示 三 元 式 的 记录 与 表示 MIR 指 令 的 记录 类 似 ， 不 同 的 是 (1) 另 
有 两 种 类 别 ，store 和 indstore， 分 别 对 应 于 4.9.1 节 讨论 的 运算 符 sto 和 *sto; 
(2) 三 元 式 的 其 他 类 别 没有 left 域 ， (3) 有 另 一 种 类 型 的 操作 数 <kind:trpl， 
val :num>， 它 命名 存储 在 TInst [num] 中 的 那个 三 元 式 的 结果 。 
写 一 个 ICAN 例 程 MIR to Trees(n,Inst,Root)，, 它 将 MIR 指 令 组 成 的 数组 
Inst[1],...,Inst[n] 转 换 为 一 组 树 ， 这 些 树 的 树 根 存储 在 Root [1], . . . ,Root[m] 
中 ， 并 将 m 作 为 返回 值 。 树 结 点 是 下 面 定义 的 类 型 Node 的 元 素 。 
Leaf = record {kind: enum {var,const}, 
val: Var U Const, 
names: set of Var) 
Interior = record {kind: IROper, 
1t, rt: Node, 
names: set of Var) 
Node = Leaf U Interior 


如 果 内 部 结 点 的 kind 是 一 个 一 元 运算 符 ， 则 它 的 操作 数 是 它 的 1t 域 ， 并 且 它 的 
rt 域 为 nil。 
写 一 个 ICAN 例 程 Prefix_to_MIR(PP,Inst)， 它 转换 前 级 波兰 运算 符 和 操作 数 序 
列 PP 到 MIR 指 令 数 组 Inst[1],...,Inst[n]， 并 将 n 作 为 其 返回 值 。 假 设 PP 是 
sequence3É7! (MIRKind U IROper U Var UConst), 并且 前 级 波兰 代码 如 图 4-27 
所 示 。 


4.40 写 一 个 ICAN 例 程 DAG_to_MIR(R,Inst)， 它 将 具有 R 个 根 的 DAG 转 换 为 MIR 指 令 


数组 Inst[1],...,Inst[n]， 并 把 n 作 为 返回 值 。 假 设 DAG 的 结 点 是 用 练习 4.8 中 
定义 的 类 型 Node 来 表示 的 。 





ae /二 
第 5 章 运行 时 支持 

这 一 章 , 我 们 对 运行 时 为 支持 高 级 语言 共有 一 些 概念 所 涉及 的 一 些 基 本 问题 来 个 快速 回顾 。 
由 于 这 些 概念 中 的 多 数 在 其 他 一 些 介绍 编译 的 书 中 已 有 详细 介绍 ， 因 此 ， 我 们 不 再 对 它们 进行 
更 详细 的 探讨 。 我 们 的 目的 是 让 读者 回顾 这 些 问 题 ， 给 出 运行 时 处 理 这 些 问题 的 合适 方法 ， 并 
在 需要 时 给 出 进一步 阅读 的 参考 文献 。 有 些 更 高 级 的 概念 ， 如 位 置 无 关 代 码 和 堆 存 储 管理 ， 在 
本 章 的 最 后 几 节 中 讨论 。 

总 的 来 说 ， 本 章 主要 关心 的 是 为 支持 各 种 源 语言 所 必需 的 软件 约定 ， 包 括 数据 表示 、 变 量 
的 各 种 存储 类 的 存储 分 配 、 可 见 性 规则 、 过 程 调用 、 入 口 、 出 口 和 返回 处 理 等 。 

许多 体系 结构 的 应 用 程序 二 进 制 接口 (Application Binary Interface, ABI) 标准 都 有 助 于 
确定 8 运行 时 多 数 数 据 结构 的 组 织 方法 。 这 种 标准 规定 了 运行 时 环境 各 个 方面 的 布局 和 特征 ， 
使 得 满足 此 标准 的 软件 能 够 实现 互 操作 ， 从 而 简化 了 软件 编写 者 的 工作 。 这 种 标准 文档 的 一 个 
例子 是 UNIX 系 统 V ABI 和 它 关 于 各 种 体系 结构 的 特定 处 理 器 (如 SPARC 和 Intel 386 体 系 结构 系 
列 ) 的 相关 增补 。 

我 们 首先 在 5. 1 节 讨 论 数据 结构 类 型 和 运 运行 时 有 效 表示 它们 的 方法 ， 接 下 来 在 5.2 节 简要 讨 
论 寄存 器 的 使 用 约定 和 基本 的 管理 方法 (全 局 优化 寄存 器 使 用 方法 在 第 16 章 讨论 )， 然 后 ,在 
5.3 节 讨论 单一 过 程 的 栈 帧 结构 。5.4 节 讨论 关于 运行 栈 的 完整 组 织 方法 。 在 5.5 节 和 5.6 节 ， 我 们 
讨论 支持 参数 传递 和 过 程 调 用 时 涉及 的 问题 。5.7 节 讨论 利用 动态 链接 和 位 置 无 关 代码 对 代码 
共享 的 支持 。 最 后 ， 在 5.8 节 讨论 对 动态 和 多 态 语 言 的 支持 。 


5.1 数据 表示 和 指令 


为 了 实现 较 高 级 的 语言 ， 我 们 必须 提供 若干 机 制 来 表示 它 的 数据 类 型 和 数据 结构 的 概念 ， 
并 支持 其 存储 管理 的 概念 。 基 本 数据 类 型 一 般 至 少 包含 整数 、 字 符 和 浮 点 数 〈 其 中 每 一 种 具有 
一 或 多 种 大 小 和 格式 )， 以 及 枚 举 值 和 布尔 量 。 

我 们 希望 将 整数 值 映 射 到 体系 结构 的 一 种 基本 整 类 型 或 几 种 类 型 。 现 实 中 的 每 一 种 目标 体 
系 结构 至 少 通过 存 、 取 和 计算 操作 直接 支持 一 种 大 小 和 格式 的 整 类 型 ， 一 般 是 32 位 有 符号 整数 
的 二 进 制 补 码 。 多 数 体系 结构 也 支持 32 位 无 符号 整数 ， 以 及 施加 于 其 上 的 所 有 或 几乎 所 有 的 运 
算 。 字 节 和 半 字 有 符号 和 无 符号 整数 则 通过 对 长 度 为 字 节 或 半 字 的 存 取 操 作 ， 或 者 通过 一 串 操 
作 来 支持 ， 这 一 申 操 作 包 括 一 字 大 小 数据 的 存 取 、 形 成 一 个 字 所 需要 的 抽取 和 插入 运算 、 适 当 
的 符号 扩展 或 零 扩 展 ， 以 及 对 应 的 基本 整数 运算 。 较 长 类 型 的 整数 运算 通常 需要 多 次 存 取 ( 某 
些 体系 结构 的 双 字 整数 运算 除外 )， 并 且 一 般 通 过 进位 加 和 借 位 减 运算 来 支持 ， 由 这 两 种 运算 
可 构造 出 完整 的 多 精度 算术 和 关系 运算 集合 。 

一 直到 最 近 ， 字 符 一 般 都 是 字 节 大 小 的 量 ， 尽 管 现 在 也 常常 支持 半 字 的 字符 表示 ， 如 含有 
片 假名 和 平 假名 音节 书写 系统 以 及 中 文 与 汉字 字 根 系统 的 统一 码 (Unicode)。 单 个 字符 运算 所 
需要 的 支持 包括 取 、 存 和 比较 操作 , 这 些 操作 是 由 对 应 的 有 符号 或 无 符号 一 字 和 半 字 整数 的 存 、 
取 (或 等 价 的 操作 ) 以 及 整数 比较 指令 来 支持 的 ， 偶 尔 也 通过 更 复杂 的 指令 来 支持 ， 如 


O 有 人 可 能 认为 它们 “有 碍 于 在 决策 过 程 中 发 挥 创造 性 。 





- 


POWER 系列 的 有 符号 字 节 变 址 取 与 比较 指令 。 尽 管 许 多 CISC 体 系 结构 对 一 种 字符 表示 或 其 他 
表示 具有 一 些 内 建 的 支持 (如 DEC VAX 系 列 对 ASCII 的 支持 ，IBM System/370 对 EBCDIC 的 支 
持 )， 更 为 现代 的 体系 结构 通常 并 不 特别 支持 某 种 特定 的 字符 集 ， 而 是 将 它 留 给 程序 员 用 软件 
来 实现 适当 的 操作 。 

浮 点数 一 般 有 与 ANSIIEEE 754 — 1985 标 准 相 应 的 两 种 或 三 种 格式 一 一 单 精度 、 双 精度 和 
扩展 精度 (不 常 有 )， 它 们 分 别 占 一 字 、 双 字 、80 位 或 4 字 。 在 所 有 情况 下 ， 硬 件 都 直接 支持 单 
精度 浮 点 数 的 存 取 指 令 ， 多 数 情况 下 也 直接 支持 双 精度 ， 但 一 般 不 支持 扩展 精度 的 存 取 指 令 。 
当前 多 数 体系 结构 〈 较 明显 的 例外 是 POWER 和 Intel 386 体 系 结构 系列 ) 提供 单 精度 和 双 精 度 
算术 运算 和 比较 运算 的 完整 实现 ， 但 有 些 省 去 了 平方 根 运算 ， 而 有 些 ， 如 SPARC Version 8, 
还 包含 了 四 精度 运算 。 尽 管 PowerPC 直 接 支持 单 精度 和 双 精 度 格 式 ， 但 POWER 只 提供 双 精 度 
运算 ， 并 分 别 在 执行 存 和 取 的 过 程 中 将 单 精度 数 转 换 为 双 精 度数 或 反之 ” Intel 386 体 系 结构 
系列 的 浮 点 寄存 器 支持 80 位 格式 ， 运 算 结 果 可 以 通过 设置 控制 寄存 器 中 的 一 个 字段 四 舍 五 入 为 
单 精度 或 双 精 度 。 取 和 存 操作 指令 可 以 将 单 精度 转换 为 双 精 度 或 反之 ， 也 可 以 存 取 80 位 精度 的 
值 。 对 于 大 多 数 体系 结构 ， 实 现 ANSIIEEE 754 - 1985 标 准 规定 要 求 的 例外 和 例外 值 的 复杂 系 
统 则 还 需要 软件 作 一 点 支持 ， 而 有 些 情况 下 ， 如 Alpha， 则 需要 软件 作 较 多 的 支持 。 

枚 举 值 通常 用 连续 的 无 符号 整数 来 表示 ， 它 们 需要 的 操作 只 有 取 、 存 和 比较 ， 但 Pascal 和 
Ada 除 外 。 这 两 种 语言 允许 对 枚 举 类 型 进行 遍历 。 布 尔 量 可 以 是 一 种 枚 举 类 型 ， 例 如 在 Pascal、 
Modula-2 和 Ada 中 ; 也 可 以 是 整数 ， 如 C 中 ; 还 可 以 是 独立 的 类 型 ， 如 Fortran 77 中 。 

数组 通常 可 以 有 多 维 ， 并 且 其 元 素 可 以 是 基本 类 型 ， 也 几乎 可 以 是 任意 类 型 ， 这 取决 于 源 
语言 。 不 论 其 元 素 是 什么 类 型 ， 数 组 都 可 以 看 作 是 n 维 立方 体 ， 其 4 维 中 的 每 一 维 对 应 一 个 下 标 
位 置 。 数 组 的 表示 在 概念 上 常常 可 以 看 作 是 对 此 立方 体 按 行为 主 (row-major) 的 顺序 进行 切 
E (如 大 多 数 语言 ) 或 按 列 为 主 (column-major) 的 顺序 进行 切片 (如 Fortran)， 然 后 根据 元 
素 在 切片 中 的 位 置 为 每 个 元 素 指定 一 块 存储 。 例 如 ， 声 明 为 vara: array[1..10, 0..5] 
of integer 的 Pascal 数 组 将 占据 (10-1+1) x (5-0+1) =60 字 的 存储 空间 ， 其 中 ，a [1， 
0 在 第 0 字 ，a[1，11 在 第 1! 字 ，a[2，0] 在 第 6 字 ,， 而 a[10，5] 在 第 59 字 。 一 般 地 ， 对 于 其 
声明 为 如 下 形式 的 Pascal 数 组 exam 


var exam: array [lo,.hi, lo,.hi, ..., lo,.hi,] of type 


J&XXexam[sub,, sub; ..., sub,] 的 地 址 是 : 


base(exam) + size(type) - $ (subj — loj) II (bi; — loj + 1) 
i=] j=i+1 

其 中 pase (exam) 是 数组 第 一 个 元 素 的 地 址 ，size (type) 是 每 一 个 元 素 占据 的 字 节 数 ”。 类 
似 的 公式 可 用 于 其 他 语言 ， 但 Fortran 除 外 。 对 于 Fortran ， 公 式 中 的 乘积 是 从 /= 13j—i- 1. 

有 些 体 系 结构 提供 了 能 简化 多 维 数组 处 理 的 指令 。 例 如 ，Intel 386 体 系 结构 系列 提供 的 取 
和 存 指令 (以 及 存储 器 - 存储 器 的 传送 指令 ) 使 用 了 一 个 基 址 寄存 器 ， 一 个 缩放 为 1、2、4、8 
的 索引 寄存 器 和 一 个 偏 移 量 。 有 些 体系 结构 ， 如 POWER 和 PA-RISC， 提 供 了 具有 基 址 寄存 器 
更 新 的 存 取 指 令 ， 并 且 在 PA - RISC 中 同时 还 具有 缩放 功能 ， 它 们 简化 了 对 连续 数组 元 素 的 访 
问 和 对 元 素 大 小 各 不 相同 的 数组 的 并 行 访问 。 


O POWER 也 有 乘 和 加 融合 在 一 起 的 指令 ， 这 种 指令 使 用 全 长 度 乘积 作为 加 法 的 操作 数 。 
O “实际 上 ， 考虑 到 时 间 效率 ， 编 译 器 可 以 使 得 存储 器 中 每 一 个 元 素 的 大 小 保持 与 最 有 效 存 储 访问 单位 对 齐 。 
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记录 由 多 个 命名 的 域 组 成 ， 一 般 没 有 直接 支持 它 的 机 器 指令 。 在 多 数 提供 此 类 型 的 高 级 语 
言 中 ， 它 们 可 以 是 压缩 的 (packed) ( 即 相 邻 的 元 素 具 有 连接 的 存储 单元 ， 并 忽略 那些 可 能 使 
得 访问 更 具 效 率 的 边界 ) ， 也 可 以 是 非 压 缩 的 (unpacked) (考虑 了 边界 对 齐 )。 作 为 一 个 例子 ， 
考虑 图 5-1a 和 b 给 出 的 C 结 构 声明 ， 其 中 ,分 号 之 后 的 数字 表示 位 数 ， 它 们 分 别 需 要 占 两 个 字 和 
一 个 字 。 一 个 类 型 为 s1 的 结构 对 象 的 存储 单元 如 图 5-2a 所 示 ， 类 型 为 s2 的 结构 对 象 的 存储 单 
元 如 图 5-2b 所 示 。 显 然 ， 访 问 和 管理 大 小 和 边界 对 齐 与 存 和 取 指 令 相 适应 的 域 ， 比 访问 和 管理 
压缩 的 域 更 为 容易 ， 为 访问 一 个 元 素 ， 压 缩 的 域 需要 多 条 存 和 取 指 令 ， 并 且 可 能 需要 用 到 移 位 
和 屏蔽 ， 或 者 抽取 和 揪 入 操作 ， 有 具体 取决 于 机 器 的 体系 结构 。 


struct si ( struct s2 ( 
int largel; int large2: 18; 


Short int smalli; int small2: 10; 








a) b) 
图 5-1 两 个 C 结 构 ，a) 非 压缩 的 ，b) 压缩 的 





图 5-2 图 5-1 中 结构 的 表示 


指针 一 般 占 一 个 字 或 双 字 ， 并 且 通 过 取 、 存 和 比较 指令 来 支持 。 访 问 指针 所 引用 的 对 象 一 
般 通 过 将 指针 取 到 一 个 整数 寄存 器 ， 然 后 在 另外 的 取 或 存 指令 中 指定 使 用 该 寄存 器 来 形成 其 地 
址 。 有 些 语言 ， 如 C 和 C++， 提 供 了 指针 与 整数 的 加 减 运算 来 访问 数组 元 素 。 

字符 串 的 表示 有 各 种 方法 ， 具 体 取 决 于 源 语言 。 例 如 ，Pascal 和 PL/I 的 字符 串 表 示 中 包括 
一 个 该 字符 串 所 含 字符 个 数 的 计数 器 ， 而 C 的 字符 串 则 是 用 null 字 符 ( 即 0 值 ) 表示 终止 。Intel 
386 体 系 结构 提供 了 字符 串 传 送 、 比 较 和 扫描 指令 。RISC 体 系 结构 中 ， 只 有 POWER 和 PowerPC 
提供 了 专门 为 字符 串 操作 而 设计 的 指令 ， 即 取 字 符 串 和 存 字 符 串 指令 (1sx、1si、stsx 和 
stsi)， 以 及 取 字 符 串 并 比较 指令 (lscbx)。 这 些 指令 使 用 多 个 寄存 器 和 一 字 节 的 偏 移 来 指 
出 字符 串 的 开始 地 址 。 其 他 体系 结构 对 字符 串 操 作 的 支持 很 少 ， 例 如 MIPS 有 非 对 齐 的 取 和 存 
指令 ， 有 的 则 只 有 基本 的 取 和 存 指令 。 

集合 一 般 用 位 串 来 表示 ， 位 串 中 的 每 一 位 指出 一 个 特定 的 元 素 是 否 属 于 该 集合 。 例 如 ， 给 
定 图 5-3 中 的 Pascal 集 合 类 型 color 和 变量 primary，primary 的 表示 一 般 占 一 个 字 ， 它 的 值 
是 十 六 进 制 整数 0x54， 即 从 右 数 起 的 第 3、5 和 7 位 为 1 AR, MMARKA EH (sparse) 
时 ( 即 ， 实 际 元 素 个 数 少 于 可 能 的 元 素 个 数 时 )， 也 使 用 另外 一 种 表示 ， 在 这 种 表示 中 ， 集 合 
是 位 串 中 那些 为 1 的 位 的 位 置 组 成 的 表 ， 通 常 按 递增 的 顺序 存放 。 对 于 我 们 的 这 个 例子 ， 该 表 
可 由 四 个 存储 单元 组 成 ， 第 一 个 单元 包含 3 (元 素 的 个 数 ) ， 其 他 单元 则 包含 3、5 和 7; 这 些 存 
储 单元 的 大 小 可 根据 集合 类 型 中 元 素 的 个 数 来 选择 ， 也 可 以 总 是 一 个 字 大 小 。 

各 种 高 级 语言 都 提供 了 一 系列 的 其 他 类 型 ， 这 些 类 型 可 用 我 们 曾 讨论 过 的 类 型 和 类 型 构造 符 
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来 表示 。 例 如 ， 复 数 类 型 可 用 由 两 个 浮 点 成 员 组 成 的 记录 来 表示 ， 其 中 一 个 成 员 为 实 部 ， 另 一 个 

HRR: 有 理 数 可 用 两 个 整数 组 成 的 记录 来 表示 ， 一 个 是 分 子 ， 另 一 个 是 分 母 ， 通 常 假设 这 两 个 

整数 的 最 大 公 因 子 为 1。 当 然 ，、 具 有 丰富 的 类 型 构造 符 集合 的 语言 能 够 支持 众多 种 类 的 类 型 。 
type color = set of (red, orange, yellow, green, 


blue, indigo, violet); 
var primary: color; 







primary :* [red, yellow, blue] 
图 5-3 Pascal 集 合 的 例子 


上 面 讨论 的 所 有 表示 都 假定 类 型 是 与 变量 相关 的 并 且 是 编译 时 已 知 的 。 有 些 语言 ， 如 LISP 
和 Smalltalk， 类 型 与 数据 对 象 相关 ， 而 不 是 与 变量 相关 ， 因 此 会 需要 运行 时 的 类 型 判定 。 我 们 
将 这 一 问题 留 至 5.8 节 再 考虑 。 


5.2 寄存 器 用 法 


对 于 任何 访问 寄存 器 比 访问 多 级 存储 系统 的 其 他 存储 层次 要 快 的 机 器 而 言 ， 包 括 我 们 知道 
的 当前 的 所 有 机 器 ， 以 及 那些 还 没有 制造 出 来 的 大 多 数 机 器 ， 寄 存 器 的 用 法 是 设计 编译 器 时 过 
到 的 最 重要 的 问题 之 一 。 假 如 可 能 ， 理 想 的 情形 是 将 所 有 对 和 象 都 分 配 在 寄存 器 中 ， 从 而 完全 各 
免 访问 存储 器 。 尽 管 这 个 目标 适合 于 几乎 所 有 的 CISC 机 器 ， 但 对 于 最 近 的 CISC 实 现 ， 如 Intel 
的 Pentium 和 其 后 的 系列 机 ， 它 尤为 重要 ， 因 为 最 近 的 CISC 实 现 偏向 于 采用 RISC 风 格 的 快速 指 
令 集 ， 而 对 于 RISC 体 系 结构 ， 几 乎 所 有 的 运算 都 要 求 其 操作 数 在 寄存 器 中 ， 并 且 结果 也 放 在 
寄存 器 中 。 不 幸 的 是 ， 寄 存 器 的 个 数 总 是 相对 较 少 ， 因 为 它们 是 大 多 数 实 现 中 最 昂贵 的 资源 ， 


“这 既 源 于 它 增 加 了 芯片 的 面积 和 互 连 的 复杂 性 ， 也 源 于 寄存 器 的 个 数 对 指令 的 结构 和 指令 中 规 


定 的 操作 码 、 偏 移 量 、 条 件 等 的 有 效 空 间 的 影响 。 此 外 ， 由 于 数组 需要 索引 ， 多 数 寄存 器 不 支 
持 这 个 能 力 ， 因 此 不 可 能 使 所 有 变量 都 存放 在 寄存 器 中 。 

当然 ， 很 少 有 能 够 将 所 有 数据 在 所 有 时 间 内 都 保存 在 寄存 器 中 的 情况 ， 因 此 精心 地 使 用 好 
寄存 器 ， 控 制 好 对 那些 不 在 寄存 器 中 的 变量 的 访问 很 重要 。 特 别 地 ， 有 四 个 需要 考虑 的 问题 : 

1. 尽 可 能 地 将 程序 执行 中 最 频繁 使 用 的 变量 分 配 到 寄存 器 中 ; 

2. 尽 可 能 高 效 地 访问 那些 当前 不 在 寄存 器 中 的 变量 ; 

3. 使 “ 记 账 ”使 用 的 寄存 器 〈 例 如 ， 为 管理 变量 对 存储 器 的 访问 而 保留 的 寄存 器 ) 个 数 尽 
可 能 的 少 ， 以 便 能 用 更 多 的 寄存 器 来 容纳 变量 的 值 。 

4. 尽 可 能 提高 过 程 调用 和 相关 操作 的 效率 ， 如 进入 和 退出 作用 域 ， 以 便 使 它们 的 开销 减 至 
最 小 。 

当然 ， 这 些 目标 通常 会 相互 冲突 。 特 别 地 ， 高 效 访问 不 在 寄存 器 中 的 变量 和 高 效 的 过 程 
调用 需要 的 寄存 器 个 数 可 能 会 多 于 其 他 情况 下 打算 给 它们 的 寄存 器 个 数 ， 因 此 ， 寄 存 器 的 使 
用 是 一 个 非常 重要 的 、 需 要 仔细 设计 的 问题 ， 也 是 需要 体系 结构 给 予 某 种 支持 的 一 个 方面 。 
第 16 章 包含 了 若干 为 频繁 使 用 的 变量 分 配 寄 存 器 的 非常 有 效 的 技术 ， 因 此 这 里 不 考虑 寄存 器 
分 配 问题 。 

参与 寄存 器 竞争 的 有 以 下 一 些 对 象 : 
#484 (stack pointer) 

栈 指针 指向 运行 栈 的 当前 栈 顶 ， 它 通常 是 运行 栈 中 下 一 个 过 程 调用 的 局 部 存储 空间 〈 即 其 
TR) 的 开始 。 
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Mids 4t (frame pointer) 

Wist (可 以 不 是 必需 的 ) 指向 运行 栈 当 前 过 程 的 栈 帧 开始 处 。 
动态 链 (dynamic link) 

动态 链 指向 运行 栈 中 前 一 栈 帧 的 开始 (或 者 ， 如 果 没 有 使 用 栈 帧 指针 ， 则 指向 前 一 栈 帧 的 
末尾 )， 并 用 于 在 当前 过 程 返回 时 重建 调用 者 的 栈 帧 。 或 者 ， 它 也 可 以 是 指令 中 的 一 个 整数 ， 
表示 当前 帧 指针 和 前 一 帧 指针 之 间 的 距离 ， 或 者 ， 如 果 没 有 使 用 帧 指针 ， 表示 当前 栈 指 针 和 前 
一 栈 指针 之 间 的 距离 。 
静态 链 (static link) 

静态 链 指向 词法 上 包含 作用 域 的 最 近 一 次 调用 的 栈 帧 ， 它 用 于 访问 非 局 部 变量 (有 些 语言 ， 
如 C 和 Fortran ， 不 需要 静态 链 ) 。 
人 金 局 偏 移 表 指 针 (global offset table pointer) 

全 局 偏 移 表 指针 指向 用 于 多 个 进程 之 间 代 码 共 享 的 一 个 表 ( 见 5.7 节 )， 以 建立 和 访问 外 部 
变量 的 私有 (每 个 进程 的 ) 副本 (如 果 不 出 现 这 种 共享 代码 ， 则 不 需要 )。 
参数 

参数 由 当前 活跃 过 程 传递 给 被 调用 过 程 。 
返回 值 

被 当前 活跃 过 程 调 用 的 过 程 返回 的 结果 。 
频繁 使 用 的 变量 

最 频繁 使 用 的 局 部 (也 可 能 是 非 局 部 的 或 全 局 的 ) 变量 。 
临时 变量 

在 表达 式 求 值 期 间 和 其 他 较 短 活跃 期 内 使 用 和 计算 出 的 临时 值 。 

后 面 几 节 将 逐一 讨论 这 些 对 象 。 

根据 指令 集 和 寄存 器 的 设计 ， 有 些 运算 可 能 需要 两 到 四 个 寄存 器 。 乘 法 和 除法 运算 的 结果 
常常 使 用 两 个 整数 寄存 器 ， 因 为 在 乘法 运算 中 ， 乘 积 的 长 度 是 两 个 操作 数 的 长 度 之 和 ; 在 除法 
运算 中 ， 这 两 个 寄存 器 用 于 存放 商 和 余数 。 有 些 体系 结构 (如 PA-RISC) 提供 了 双 字 长 度 的 移 
位 指令 来 替代 CISC 体 系 结构 中 通常 具有 的 旋转 移 位 操作 。 


5.3 局 部 栈 帧 


尽管 我 们 希望 将 所 有 操作 数 都 保存 在 寄存 器 中 ， 但 许多 过 程 都 需要 一 片 存 储 区 域 用 于 以 下 
若干 目的 : 

1. 为 那些 要 取 其 地 址 的 变量 ( 显 式 或 隐 式 ， 例 如 传 地 址 的 参数 )， 或 需要 通过 变 址 逐一 访问 
而 不 能 在 寄存 器 文件 中 存放 的 变量 ， 以 及 不 能 一 直 保 存在 寄存 器 中 的 变量 提供 一 个 存放 之 处 ; 

2. 当 执行 过 程 调 用 时 ， 为 那些 要 保存 的 出 自 寄存 器 的 值 提供 一 个 标准 的 存放 之 处 ; 

3. 为 调试 器 追踪 当前 活跃 过 程 链 提供 一 种 途径 。 

因为 这 些 需 要 存放 在 存储 器 中 的 量 多 数 只 在 进入 一 个 过 程 时 才 存 在 ， 并 且 在 过 程 返回 后 便 
不 能 再 访问 ， 因 此 一 般 将 它们 集中 存放 到 一 个 称 为 帧 〈frame) 的 区 域 。 帧 安排 在 栈 内 ， 因 而 
常常 称 之 为 栈 巾 (stack frame)。 栈 帧 可 以 包含 那些 传递 给 当前 过 程 但 接收 参数 的 寄存 器 容纳 
不 下 的 参数 、 全 部 的 或 部 分 的 局 部 变量 、 寄 存 器 保护 区 、 编 译 分 配 的 临时 变量 、 一 个 修 套 层次 

显示 表 (display， 参 见 5.4 节 )， 等 等 。 

为 了 能 够 在 运行 时 访问 当前 栈 帧 的 内 容 ， 我 们 按 某 种 顺序 (后 面 将 描述 ) 给 这 些 存放 在 栈 中 

的 对 象 逐 个 地 指定 存储 偏 黎 ， 这 些 偏 移 均 相对 某 个 保存 在 寄存 器 内 的 指针 。 这 个 指针 可 能 是 帧 指 





4+fp (frame pointer)， 它 指向 当前 栈 帧 的 第 一 个 单元 ; 也 可 能 是 栈 指针 sp (stack pointer)， 它 指向 
当前 栈 顶 ， 即 当前 栈 帧 的 最 后 一 个 单元 之 后 的 位 置 。 大 多 数 编译 器 在 存储 器 中 安排 栈 帧 时 ， 都 使 
栈 帧 的 开始 地 址 高 于 结束 地 址 ， 从 而 使 得 相对 当前 栈 帧 栈 指针 的 偏 移 总 是 非 负 的 ， 如 图 5-4 所 示 。 

有 的 编译 器 同时 使 用 帧 指针 和 栈 指针 ， 某 些 变量 则 相对 它们 各 自 来 寻 址 (如 图 5-5 所 示 )。 
究竟 是 选择 使 用 单独 一 个 栈 指针 ， 或 单独 一 个 帧 指针 ， 还 是 同时 使 用 两 者 来 访问 当前 栈 帧 的 内 
容 ， 既 取决 于 硬件 特征 也 取决 于 所 支持 的 语言 的 特征 。 选 择 时 的 考虑 是 : (1) 有 一 个 独立 的 帧 
指针 是 否 浪费 寄存 器 还 是 没关系 ; (2) 取 和 存 指令 中 所 提供 的 相对 单个 寄存 器 的 短 偏 移 量 是 
否 足以 覆盖 大 多 数 帧 的 大 小 ; (3) 是 否 必须 支持 类 似 于 C 库 销 数 alloca ( ) 这 样 的 内 存 分 配 国 
数 ， 这 个 函数 动态 分 配 空 间 扩充 当前 栈 帧 ， 并 返回 指向 那 片 空间 的 指针 。 只 用 帧 指针 通常 不 是 
好 的 想法 ， 因 为 为 了 能 够 从 当前 栈 帧 进一步 调用 其 他 过 程 ， 我 们 总 是 需要 在 某 个 地 方 保存 栈 指 
针 或 栈 辆 的 大 小 。 对 于 大 多 数 体系 结构 而 言 ， 存 和 取 指 令 中 的 偏 移 域 足以 覆盖 多 数 栈 帧 ， 而 且 
使 用 一 个 额外 的 寄存 器 作 帧 指针 有 代价 ， 即 由 于 需要 将 它 保存 到 存储 器 并 从 存储 器 中 恢复 它 ， 
会 带 来 一 定 的 开销 ， 并 且 它 所 占用 的 寄存 器 不 能 用 来 存放 变量 的 值 。 因 此 ， 如 果 栈 指针 能 够 覆 
盖 足 够 的 范围 ， 并 且 我 们 不 需要 处 理 类 似 alloca () 的 函数 ， 则 合适 的 做 法 是 只 使 用 栈 指针 。 


: ' ie | 下 降 存储 
前 一 栈 帧 |! | ! Aht 
Esp 一 > | Dd fp ( 老 sp) 一 > | | 
| [olx 
HR 
NEM - awe [| a | 
Sp —*- 一 SP ——» 
图 5-4 具有 当前 栈 指针 和 老 栈 指针 的 栈 由 图 5-5 具有 栈 指针 和 帧 指针 的 栈 由 


alloca() 的 作用 是 扩展 当前 栈 帧 ， 从 而 使 得 栈 指针 指向 与 原来 不 同 的 位 置 。 当 然 ， 这 也 改 
变 了 通过 原来 的 栈 指针 寻 址 的 那些 存储 单元 的 偏 移 ， 因 此 必须 复制 这 些 存 储 单元 的 内 容 到 与 原来 
偏 移 相 一 致 的 地 方 。 因 为 用 户 可 能 会 计算 一 个 C 局 部 变量 的 地 址 并 将 它 保 存在 某 个 变量 中 ， 这 就 
意味 着 相对 sp 访问 的 量 不 能 由 用 户 来 寻 址 ， 并 且 这 些 量 必须 是 只 在 拥有 该 栈 帧 的 过 程 被 男 一 个 
过 程 调用 悬挂 期 间 所 需要 的 量 。 于 是 ， 相 对 sp 的 寻 址 只 可 用 于 短期 活跃 的 临时 变量 、 转 送 给 其 
他 过 程 的 参数 、 跨 调用 保护 的 寄存 器 以 及 返回 值 。 因 此 ， 如 果 我 们 必须 支持 alloca () ， 就 需要 
同时 使 用 栈 指针 和 帧 指针 。 尽 管 这 耗费 了 一 个 寄存 器 ， 但 它 的 指令 开销 相对 较 低 ， 因 为 我 们 只 需 
在 过 程 入 口 (1) 保存 老 的 帧 指针 在 新 栈 帧 内 ，(2) 用 老 栈 指针 的 值 设 置 新 帧 指针 ，(3) 增加 当 
前 梭 帧 的 长 度 至 栈 指针 。 当 从 过 程 退 出 时 ， 其 处 理 则 正好 相反 。 在 具有 寄存 器 窗口 的 体系 结构 中 
(如 SPARC)， 其 动作 更 简单 。 如 果 选 择 栈 指针 是 out 寄 存 器 之 一 ， 帧 指针 是 相应 的 in 寄 存 器 ， 如 
SPARC UNIX 系 统 V ABI 规 定 的 一 样 ， 则 可 用 save 和 restore 指 令 完成 人 口 和 出 口 操作 ， 保 存 寄 
存 器 至 存储 器 和 从 寄存 器 恢复 它们 的 工作 则 留 给 寄存 器 窗口 的 溢出 与 填充 自 陷 程序 去 处 理 。 

增加 sp 可 寻 址 范围 的 另 一 种 方法 是 使 sp 指向 栈 顶 之 下 〈 即 当前 栈 帧 之 内 ) 的 某 个 固定 距 


[u3] 离 ， 这 样 ， 除 了 正 偏 移 之 外 也 能 使 用 相对 sp 的 部 分 负 偏 移 。 这 增加 了 用 一 条 存 取 指 令 所 能 访 
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问 的 栈 帧 大 小 ， 但 其 代价 是 对 于 需要 用 到 栈 顶 的 调试 器 和 其 他 工具 ， 为 找到 实际 的 栈 顶 需要 少 
量 额外 的 计算 。 


5.4 运行 时 栈 


在 运行 时 我 们 不 必 使 所 有 符号 表 结 构 (如 果 有 的 话 ) 都 存在 ， 替 代 地 ， 我 们 必须 在 编译 时 
给 变量 分 配 能 反映 其 作用 域 的 地 址 ， 并 在 编译 的 代码 中 按 这 种 方式 来 寻 址 。 如 5.3 节 所 述 ， 呈 
现在 栈 中 的 信息 可 有 若干 种 ， 我 们 这 里 感 兴趣 的 是 对 可 见 的 非 局 部 变量 的 寻 址 支持 。 如 前 面 指 
出 的 一 样 ， 我 们 仍 假定 可 见 性 受 静态 媒 套 结构 的 控制 。 栈 的 结构 为 每 一 个 活跃 过 程 包含 一 个 栈 
帧 9 ， 其 中 ， 如 果 一 个 调用 已 经 进入 了 一 个 过 程 但 还 未 从 该 过 程 退 出 ， 则 该 过 程 定义 为 是 活跃 
的 (active)。 于 是 ， 对 于 一 个 给 定 的 过 程 ， 如 果 它 是 递归 的 ， 则 在 同一 时 刻 可 以 有 该 过 程 的 多 
个 栈 帧 ,并且 静态 包含 当前 过 程 的 那个 过 程 的 最 近 一 次 调用 对 应 的 栈 帧 可 能 位 于 栈 内 回 退 好 几 
县 栈 帧 的 位 置 。 每 一 个 栈 帧 包含 一 个 动态 链 (dynamic link)， 此 链 指向 栈 内 前 一 栈 帧 的 基地 址 ， 
即 前 一 栈 帧 的 fp 值 。 

此 外 ， 如 果 源 语言 支持 静态 企 套 的 作用 域 ， 则 栈 帧 还 包含 一 个 静态 链 (static link)， 它 指 
向 静态 包含 过 程 的 最 近 一 次 调用 对 应 的 栈 帧 ， 当 前 
过 程 可 在 此 栈 帧 中 访问 在 那个 过 程 中 声明 的 变量 的 





procedure f( ) 
begin 


















值 。 这 个 栈 帧 也 依次 包含 一 个 静态 链 ， 它 指向 其 静 procedure g( ) 
态 包含 过 程 的 最 近 一 次 调用 的 栈 帧 ， 依 此 类 推 ， 一 Dee aO 
直 链 到 全 局 作用 域 。 为 了 在 栈 帧 内 设置 静态 链 ， 我 end 

4198 35 — BREL BUS HS RR ARS 4 BT ERU DA E procedure h( ) 
程 的 最 近 一 次 调用 对 应 的 栈 帧 。 注 意 ， 调 用 一 个 不 ePi) 


d ies RE dE WE SERRUALU SERE HEUS BS UM, 
栈 帧 的 静态 链 应 指向 包含 这 个 非 局 部 引用 的 作用 域 。 


end 
procedure i( ) 


begin 
于 是 ， 
procedure j( ) 
1. dn et US FH USER EE B E TE AU ERU ETE begin 
内 ， 它 的 静态 链 就 指向 调用 过 程 的 栈 帧 ; procedure x( ) 
egin 


2. 如 果 这 个 过 程 与 它 的 调用 者 处 在 相同 的 嵌 套 
层次 ， 则 它 的 静态 链 从 调用 者 的 静态 链 复制 ; 

3. 如 果 被 调用 的 过 程 在 静态 做 套 结构 中 比 调用 
过 程 高 4 层 ， 则 它 的 静态 链 可 通过 从 调用 者 的 静态 链 
开始 回溯 4 层 而 找到 ， 然 后 ， 从 找到 的 地 方 复制 静态 
链 


procedure 1( ) 


图 5-6 和 图 5-7 的 例子 说 明了 这 种 处 理 过 程 。 对 
于 第 一 个 调用 ， 即 从 f () 调 g() ,g() 的 静态 链 设置 
成 指向 £() 的 栈 帧 。 对 于 从 g O 调 h () 的 调用 ， 这 两 
个 例 程 以 相同 的 层次 嵌 套 在 同一 过 程 内 ， 因 此 Ph () 
的 静态 链 从 g () 中 复制 。 最 后 ， 对 于 从 1 () 调 g () 的 — 图 5-6 用 于 确定 静态 链 的 嵌 套 过 程 调用 之 例 


O 一 直到 第 15 章 我 们 都 这 样 假设 ; 第 15 章 我 们 将 优化 掉 某 些 栈 帧 。 
e 如 果 栈 模型 只 使 用 栈 指针 来 访问 当前 栈 帧 而 没有 帧 指针 ， 则 动态 链 指向 前 一 栈 帧 的 末尾 ， 也 就 是 前 一 栈 帧 的 
sp 值 。 





UA 


aa 


WA, QO EE () 中 的 嵌 套 比 1 () 的 要 高 三 层 ， 因 此 我 们 沿 1 ( ) 的 静态 链 回 调 三 层 静 态 链 ， 并 
从 那里 复制 静态 链 。 





a) b) 


图 5-7 a) 图 5-6 中 七 个 过 程 的 静态 嵌 套 结构 和 它们 之 间 的 调用 关系 ; 
b) 它们 在 执行 期 间 (在 从 1() 进入 g O 之 后 ) 的 静态 链 


如 后 面 5.6.4 节 将 要 讨论 的 ， 当 调用 的 是 导入 的 例 程 或 在 独立 包 中 的 例 程 时 ， 必 须 随 其 调用 
地 址 一 起 提供 静态 链 。 

设置 了 当前 栈 帧 的 静态 链 后 ， 我 们 就 能 通过 指向 适当 栈 帧 的 静态 链 来 进行 非 局 部 变量 的 上 
层 寻 址 (up-level addressing )。 从 现在 起 ， 我 们 假设 静态 链 存储 在 相对 帧 指针 EP 偏 移 为 
s1_off 的 地 址 (注意 ，s1_off 是 存储 在 3.6 节 所 用 变量 staticLinkOffset 中 的 值 )。 假 设 
我 们 有 一 个 过 程 h O MBER BB O 中 ， 而 g () 又 嵌 套 在 () 中 。 为 了 在 执行 h ( ) SIE O 
中 变量 :的 值 ， 该 值 在 E () 的 栈 帧 内 偏 移 为 1_off 的 位 置 ， 我 们 可 以 执行 如 下 的 LIR 指 令 序列 : 


ri < [fp*sl off] || get frame pointer of g( ) 
r2 < [ri*sl off] |! get frame pointer of f( ) 
r3 < [r2*i off] || load value of i 


尽管 这 样 做 似乎 相当 昂贵 ， 但 并 不 一 定 是 这 样 。 首 先 ， 访 问 非 局 部 变量 一 般 不 太 频繁 。 其 
次 ， 如 果 非 局 部 访问 是 普遍 的 ， 则 一 种 称 为 嵌 套 层次 显示 表 (display) 的 机 制 能 够 前 减 多 次 引 
用 所 产生 的 代价 。 媒 套 层 次 显示 表 保存 当前 静态 链 序列 的 全 部 或 部 分 于 一 系列 寄存 器 中 或 存储 
器 的 一 个 数组 中 。 如 果 将 嵌 套 层次 显示 表 保 存在 寄存 器 中 ,一旦 向 套 居 次 显示 表 设 置 好 后 ， 非 
局 部 引用 的 代价 就 不 比 局 部 引用 高 。 当 然 ， 用 寄存 器 来 存放 嵌 套 层次 显示 表 可 能 是 不 利 的 ， 因 
为 它 减 少 了 用 于 其 他 目的 的 有 效 寄存 器 的 个 数 。 如 果 将 嵌 套 层次 显示 表 保 存在 存储 器 中 ， 则 每 
一 个 引用 最 多 多 花 一 条 取 指 令 来 将 所 期 望 栈 帧 的 帧 指针 读 和 人 寄存器。 将 嵌 套 晴 次 显示 表 保 存在 
存储 器 中 还 是 寄存 器 中 ， 还 是 同时 使 用 二 者 ， 最 好 留待 如 第 16 章 讨论 的 全 局 寄存 器 分 配 去 选择 。 


5.5 参数 传递 规则 


现 有 高 级 语言 中 的 过 程 参数 传递 和 结果 返回 机 制 有 若干 种 ， 它 们 包括 (1) 传 值 ，(2) fe 
结果 ，(3) 传 值得 结果 ，(4) 传 地 址 ，(5) 传 名 字 。 这 一 节 我 们 逐个 介绍 它们 ， 讲 述 如 何 实现 





它们 ， 附 带 也 提 及 使 用 这 些 机 制 的 一 些 语 言 。 此 外 ， 我 们 还 讨论 标号 参数 的 处 理 ， 因 为 有 些 语 [1g] 
言 允 许 给 过 程 传递 标号 。 我 们 使 用 术语 参数 (argument) REE (actual argument) 表示 被 传 
递 给 一 个 过 程 的 值 或 变量 ， 术 语 哑 参 (parameter) RMA (formal parameter) 表示 在 被 调用 过 
程 中 与 实 参 结合 的 变量 。 

概念 上 ， 传 值 (call by value) 简单 地 将 实 参 的 值 传 递 给 被 调用 过 程 ， 使 被 调用 过 程 可 以 
将 实 参 的 值 作 为 对 应 形 参 的 值 。 当 被 调用 过 程 执行 时 ， 它 不 会 干扰 调用 者 的 变量 ， 除 非 实 参 是 
一 个 指针 。 在 实 参 是 指针 的 情况 下 ， 被 调用 过 程 可 用 它 来 改变 它 所 指向 的 任何 对 象 的 值 。 传 值 
一 般 通过 在 被 调用 过 程 的 人 口 复 制 实 参 的 值 至 对 应 的 形 参 来 实现 。 这 种 方法 对 于 那些 可 用 寄存 
器 容纳 的 参数 而 言 是 简单 而 高 效 的 ， 但 对 于 体积 较 大 的 数组 却 非常 昂贵 ， 因 为 它 需 要 大 量 的 存 
储 交换 。 如 果 编 译 时 能 够 同时 对 调用 过 程 和 被 调用 过 程 进行 分 析 ， 我 们 就 可 能 确定 被 调用 过 程 
没有 改写 传 值 数组 形 参 的 值 ， 没 有 将 此 数组 形 参 传递 给 它 所 调用 的 任何 子 程序 ， 或 它 所 调用 的 
子 程序 没有 改写 其 数组 形 参 (参见 19.2.1 节 )。 在 这 种 情况 下 ， 我 们 就 可 以 通过 传递 实 参 数组 的 
地 址 来 实现 传 值 调用 ， 并 允许 被 调用 者 直接 访问 实 参 ， 而 不 需要 复制 它 。 

C、C++、ALGOL 60 和 ALGOL 68 都 有 传 值 的 形式 。 在 C、C++ 和 ALGOL 68 中 ， 它 也 是 
惟一 的 参数 传递 机 制 。 但 在 这 三 种 语言 中 ， 被 传递 的 参数 可 以 是 〈 对 于 C 和 C++ 的 某 些 类 型 而 
言 ， 总 是 ) 一 个 对 象 的 地 址 ， 因 此 ， 这 也 具有 传 地 址 的 效果 。Ada 的 in 形 参 是 传 值 的 一 种 修改 





传 结 果 (call by result) 与 传 值 类 似 ， 但 它 是 把 一 个 值 从 被 调用 过 程 返 回 给 调用 过 程 而 不 
是 从 调用 过 程 传递 给 被 调用 过 程 。 它 在 被 调用 过 程 的 人口 没有 动作 ， 当 从 被 调用 过 程 返回 时 ， 
一 般 通过 将 传 结果 形 参 的 值 复制 到 与 之 结合 的 实 参 而 使 得 形 参 的 值 对 调用 者 有 效 。 传 结果 也 有 
和 传 值 一 样 的 效率 考虑 。 在 Ada 中 ， 传 结果 是 用 out 形 参 来 实现 的 。 

传 值得 结果 (call by value-result) 实际 上 是 传 值 和 传 结 果 的 组 合 。 在 被 调用 过 程 人 口 ， 实 
参 的 值 被 复制 到 形 参 中 ; 返回 时 ， 形 参 的 值 被 复制 回 实 参 。 传 值得 结果 在 Ada 中 用 inout 形 参 
来 实现 ， 而 在 Fortran 中 则 是 正常 的 参数 传递 机 制 。 

ORE (call by reference) 在 被 调用 过 程 的 入 口 处 建立 实 参与 对 应 形 参 之 间 的 结 合 ， 此 时 ， 
实 参 的 地 址 被 确定 ， 并 且 提 供给 被 调用 者 来 访问 实 参 。 被 调用 者 在 调用 期 间 访 问 的 完全 是 实 
参 ; 它 常常 可 以 随意 地 改变 实 参 ， 并 且 可 以 将 实 参 传递 给 其 他 子 程序 。 传 地 址 通常 通过 传递 实 
参 的 地 址 给 被 调用 过 程 来 实现 ， 被 调用 过 程 则 通过 该 地 址 来 访问 实 参 。 对 于 数组 形 参 ， 它 是 非 
常 有 效 的 ， 因 为 不 需要 复制 ， 但 对 于 有 些 参数 (例如 那些 适合 放 在 寄存 器 中 的 参数 ) 却 是 低 效 
的 ， 因 为 它 有 碍 于 将 这 些 参 数 放 在 寄存 器 中 传递 。 考 虑 一 个 同时 可 以 作为 全 局 变量 访问 的 传 地 
址 实 参 ， 我 们 对 传 地 址 会 有 所 理解 。 如 果 传 递 给 被 调用 者 的 是 该 实 参 的 地 址 ， 那 么 ， 作 为 参数 
访问 它 和 作为 全 局 变量 访问 它 所 使 用 的 都 是 同一 个 地 址 单元 的 值 。 但 是 ， 如 果 是 通过 寄存 器 传 
递 该 参数 的 值 ， 那 么 作为 全 局 变量 访问 的 一 般 是 它 在 存储 单元 中 的 值 ， 而 不 是 寄存 器 中 的 值 。 

当 一 个 常数 以 传 地 址 方式 被 传递 时 ， 如 果 编 译 器 的 实现 是 将 此 常数 放 在 一 个 由 该 过 程 内 所 
有 使 用 该 常数 的 计算 都 共享 的 地 址 内 ， 则 会 出 现 问 题 ， 因 为 如 果 这 个 常数 以 传 地 址 方式 传递 给 
其 他 子 程序 ， 而 那个 子 程序 有 可 能 会 改变 这 个 地 址 中 的 值 时 ， 则 可 能 影响 到 该 调用 之 后 其 余部 
分 程序 的 执行 对 该 常数 的 使 用 。 常用 的 纠正 方法 是 将 作为 实 参 的 常数 复制 到 一 个 新 的 匿名 位 置 ， 
然后 传递 该 位 置 的 地 址 。 

传 地 址 是 Fortran 的 合法 参数 传递 机 制 。C、C++ 和 ALGOL 68 允许 对 象 的 地 址 作为 值 参 数 
被 传递 ， 因 此 ， 实 际 上 它们 也 提供 传 地 址 。 

Fortran 中 参数 传递 的 语义 允许 每 一 个 实 参 既 可 以 是 传 值得 结果 的 ， 也 可 以 是 传 地 址 的 。 因 
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此 ， 传 值得 结果 可 用 于 那些 适宜 放 在 寄存 器 的 值 ， 传 地 址 则 用 于 数组 ， 这 为 不 同 传递 类 型 的 实 
参 提 供 了 最 适合 于 它们 执行 的 两 种 高 效 机 制 。 

传 名 字 (call by name) 是 在 概念 和 实现 上 都 最 复杂 的 一 种 参数 传递 机 制 。 它 实际 上 只 有 
历史 意义 ， 因 为 ALGOL 60 是 惟一 提供 它 的 著名 语言 。 它 与 传 地 址 相似 的 是 允许 被 调用 者 访问 
调用 者 的 实 参 ， 但 不 同 点 是 在 每 次 访问 实 参 时 才 计 算 它 的 地 址 ， 而 不 是 在 被 调用 者 的 人口 处 。 
例如 ， 如 果实 参 是 表达 式 a[i] ， 而 i 的 值 在 此 实 参 的 两 次 使 用 之 间 有 改变 ， 则 这 两 次 使 用 访问 
的 是 数组 a 的 不 同 元 素 。 图 5-8 举 例 说 明了 这 种 情形 ， [begin 


其 中 i 和 a [i ] 由 主 程序 传递 给 过 程 f() 。 形 参 x 的 第 一 integer array a[1:2]; integer i; 
次 引用 取 的 是 a [11 的 值 ， 而 第 二 次 引用 设置 的 是 | MOTs D 


a[2] 。 对 outinteger () 的 调用 将 打印 出 5 5 2. f& begin integer k; 
如 使 用 的 是 传 地 址 ， 那 么 ，x 的 两 次 引用 都 将 访问 or 
a[1] ， 并 且 该 程序 将 打印 出 5 5 8。 实 现 传 名 字 需 要 
一 种 在 每 次 访问 形 参 时 计算 形 参 地 址 的 机 制 ， 这 一 般 
通过 提供 一 个 称 为 “ 形 实 转换 程序 ”(thunk ) 的 无 参数 ; 
过 程 来 实现 。 每 一 次 调用 一 个 形 参 的 形 实 转换 程序 将 ain `= 2 

返回 它 的 当前 地 址 。 当 然 ， 这 是 一 种 非常 昂贵 的 机 制 ， outinteger(a[1),£ (a[i] ,i) ,a[2]); 
但 是 编译 器 可 以 识别 出 许多 与 传 地 址 相同 的 简单 情形 ， 
例如 ， 传 递 一 个 简单 变量 、 整 个 数组 或 一 个 数组 的 固 5-8 ALGOL 60 的 传 名 字 参 数 传递 机 制 
定 元 素 ， 所 产生 的 地 址 不 会 变化 ， 因 此 ， 对 于 这 些 情 

形 就 不 需要 调用 形 实 转换 程序 。 

有 些 语 言 (例如 ALGOL 60 和 Fortran) 可 以 将 标号 作为 参数 传递 给 过 程 ， 使 得 标号 可 以 作 
为 被 调用 过 程 内 的 goto 目 标 。 实 现 这 种 功能 需要 传递 标号 对 应 代码 点 的 地 址 和 对 应 栈 帧 的 动 
态 链 。 目 标 是 标号 形 参 的 goto 将 执行 一 个 或 多 个 返回 操作 ， 直 到 到 达 由 该 动态 链 指出 的 适当 
的 栈 帧 ， 然 后 转移 到 此 标号 指出 的 那 条 指令 。 


5.6 ”过程 的 入 口 处 理 、 出 口 处 理 、 调 用 和 返回 


一 个 过 程 被 另 一 个 过 程 调用 涉及 到 这 两 个 过 程 之 间 的 “ 担 手 ”动作 ， 即 ， 从 调用 过 程 传 递 
参数 和 移交 控制 给 被 调用 过 程 ， 以 及 从 被 调用 过 程 返回 结果 和 控制 返 给 调用 过 程 。 在 最 简单 的 
运行 模式 中 ， 一 个 过 程 的 执行 包含 如 下 5 个 主要 阶段 (每 一 个 阶段 又 由 一 系列 步骤 组 成 ): 

1. 过 程 调 用 组 装 要 传递 给 该 过 程 的 实 参 ， 然 后 将 控制 移交 给 这 个 过 程 。 

(a) 每 一 个 参数 被 求 值 并 存放 在 适当 的 寄存 器 或 栈 单元 中 ,“ 求 值 ”意味 着 计算 其 值 
(对 传 值 参 数 )、 其 地 址 (对 传 地 址 参数 ) 等 等 ; 

(b) 确定 这 个 过 程 的 代码 的 地 址 (对 于 大 多 数 语言 ， 其 地 址 是 在 编译 时 或 链接 时 确定 
的 ) ; 

(c) 将 调用 过 程 使 用 的 或 保护 的 寄存 器 保存 到 存储 器 中 ; 

(d) 如 果 需 要 ， 计 算 这 个 被 调用 过 程 的 静态 链 ; 

(e) 将 返回 地 址 保存 在 一 个 寄存 器 内 ， 然 后 执行 转移 到 被 调用 过 程 的 分 支 代码 。 

2. 过 程 的 入 口 处 理 (prologue)， 它 们 在 过 程 的 人 口 处 执行 ,为 此 过 程 建立 适当 的 寻 址 环境 ， 
并 完成 其 他 一 些 功能 ， 如 保护 该 过 程 用 于 自己 的 具 的 的 那些 寄存 器 。 

(a) 保存 老 帧 指针 ， 老 栈 指针 变 为 新 的 帧 指针 ， 并 计算 新 栈 指针 ; 
(b) 将 此 过 程 要 使 用 并 且 需 要 保护 的 那些 寄存 器 保存 到 存储 器 中 ; 
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(c) 如 果 运 行 时 模型 使 用 嵌 套 层次 显示 表 ， 则 构造 它 。 
.3. 过 程 本 身 的 工作 ， 它 可 能 含有 对 其 他 过 程 的 调用 ; 
4. 过 程 的 出 口 处 理 (epilogue) 恢复 调用 过 程 的 寄存 器 和 寻 址 环境 ， 组 装 返回 值 ， 并 返回 
控制 给 调用 过 程 。 
(a) 从 存储 器 恢复 所 有 由 被 调用 者 保护 的 寄存 器 ; 
(b) 将 要 返回 的 值 (如 果 有 的 话 ) 存放 在 适当 的 地 方 ; 
(c) 恢复 老 的 栈 指针 和 帧 指针 ; 
(d) 执行 转移 到 返回 地 址 的 分 支 指令 。 
5. 最 后 ， 由 调用 过 程 中 紧 接 在 此 调用 之 后 的 代码 恢复 调用 过 程 的 执行 环境 ， 并 接收 返回 值 。 
(a) 从 存储 器 中 恢复 调用 者 保护 的 寄存 器 ; 
(b) 使 用 返回 值 。 
有 几 个 问题 会 使 这 个 模式 变 得 复杂 化 ， 这 些 问题 包括 : 参数 传递 机 制 怎样 随 参数 的 类 型 和 
个 数 而 变化 ? 哪些 寄存 器 应 由 调用 者 保护 ， 哪 些 应 由 被 调用 者 保护 ， 哪 些 是 两 者 都 不 保护 的 
( 即 所 谓 的 草稿 寄存 器 ) ? 是 否 有 可 能 调用 一 个 由 变量 给 出 其 地 址 的 过 程 ? 以 及 一 个 过 程 是 私 
有 于 包含 它 的 过 程 的 ， 还 是 共享 的 (第 5.7 节 讨论 ) 2 
在 过 程 调用 时 有 效 地 管理 寄存 器 是 实现 高 性 能 的 基本 要 求 。 如 果 调 用 过 程 假定 被 调用 过 程 
可 以 随意 地 使 用 任何 寄存 器 (不 包括 那些 特殊 寄存 器 ， 如 栈 指针 )， 它 就 必须 保护 和 恢复 所 有 
含有 有 用 值 的 寄存 器 一 一 这 可 能 意味 着 几乎 所 有 的 寄存 器 。 同 样 ， 如 果 被 调用 过 程 假定 所 有 非 
特殊 的 寄存 器 都 是 调用 过 程 正在 使 用 的 寄存 器 ， 那 它 就 必须 保护 和 恢复 所 有 可 能 含有 调用 过 程 
需要 的 值 的 寄存 器 一 一 同样 ， 这 也 可 能 意味 着 几乎 是 所 有 的 寄存 器 。 因 此 ， 按 一 种 最 优 的 方式 
将 寄存 器 集合 区 分 为 四 类 就 很 重要 。 这 四 类 寄存 器 是 (1) 特殊 的 (只 由 调用 约定 管理 的 寄存 
器 )，(2) 调用 过 程 保护 的 ，(3) 被 调用 过 程 保护 的 ，(4) 草稿 用 的 (在 过 程 调用 时 完全 不 需 
要 保存 的 )。 当 然 ， 最 优 划 分 与 体系 结构 特征 有 关 ， 如 SPARC 有 寄存 器 窗口 ，Motorola 88000 
中 整 型 数据 和 浮 点 数据 可 共享 一 个 寄存 器 集合 ; 也 与 体系 结构 的 限制 有 关 ， 如 Intel 386 体 系 结 
构 中 寄存 器 个 数 较 少 且 种 类 不 同 。 最 优 划分 也 随 程 序 不 同 而 变化 。 过 程 间 寄 存 器 分 配 (如 19.6 
节 所 述 ) 可 以 减缓 过 程 调用 带 来 的 影响 。 在 缺乏 过 程 间 寄 存 器 分 配 的 情况 下 ， 实 验 和 经 验 是 确 
定 满意 划分 的 最 好 指导 。 在 UNIX ABI 与 处 理 器 相关 的 增补 文档 中 提供 了 划分 寄存 器 集合 方法 
的 例子 。 
注意 ， 用 寄存 器 传递 参数 的 两 种 方法 都 还 需要 基于 栈 的 处 理 来 配合 一 一 如 果 参 数 太 多 以 致 
没有 可 用 的 寄存 器 时 ， 它 们 将 被 放 在 栈 中 传递 。 
5.6.1 用 寄存 器 传递 参数 : 平面 寄存 器 文件 


在 具有 大 量 通用 寄存 器 的 体系 结构 中 ， 参 数 一 般 用 寄存 器 来 传递 。 一 组 整 型 寄存 器 和 一 组 
浮 点 寄存 器 被 指定 用 来 容纳 前 ia 个 整 型 参数 和 前 铝 个 浮 点 参数 , 其 中 ia 和 锯 是 某 个 较 小 的 整数 “， 
参数 依据 其 类 型 顺序 地 存放 到 这 两 组 寄存 器 之 中 ， 如 果 还 有 余 留 的 参数 ， 则 用 栈 中 约定 的 存储 
单元 来 传递 。 假 设 我 们 有 一 个 对 £ (i ，x，j) 的 调用 ， 其 中 ， 参 数 采用 传 值 方 式 ， 第 一 个 和 第 
三 个 参数 是 整 型 值 ， 第 二 个 参数 是 单 精度 浮 点 值 。 于 是 ， 对 这 个 例子 ， 参 数 i 和 j 将 在 前 两 个 
整 型 参数 寄存 器 中 传递 ， 而 x 将 在 第 一 个 浮 点 参数 寄存 器 中 传递 。 该 过 程 调用 的 握手 动作 包括 





日 、Weicker 发 现 ， 传 递 给 过 程 的 平均 参数 个 数 大 约 为 2， 并 且 后 米 的 研究 结果 也 与 这 个 结论 一 至。 因此 ， 的 值 
通常 在 5~8 范 围 之 间 。 但 是 ， 有 此 系统 规范 允许 更 大 的 值 ， 特 别 是 ，UNIX 系 统 V 用 Ji860 的 ABI 允 许 12 个 整 
数 寄存 器 和 8 个 浮 点 寄存 器 用 于 参数 传递 。 





使 得 为 £() 生成 的 代码 也 按 这 种 方式 接收 它 的 参数 (这 一 例子 用 在 5.11 节 的 练习 5.4~5.6 中 ) 。 

这 种 机 制 适合 于 那 种 其 值 可 存放 在 单个 寄存 器 或 一 对 寄存 器 中 的 参数 ， 以 及 所 有 传 地 址 参 
数 。 对 于 其 体积 超过 了 一 对 寄存 器 大 小 的 传 值 参数 ， 通 常 使 用 另 一 种 约定 ， 即 将 参数 的 地 址 传 
递 给 被 调用 过 程 ， 而 让 被 调用 过 程 复制 该 参数 的 值 到 自己 的 栈 中 或 其 他 存储 单元 。 如 果 需 要 的 
话 ， 该 参数 的 大 小 也 可 传递 过 去 。 

如 果 多 于 ia 个 整 型 参数 或 fa 个 浮 点 参数 要 传递 ， 多 出 的 参数 通常 存放 在 栈 中 紧 接 当前 栈 指 
针 之 后 的 位 置 ， 因 此 ， 被 调用 例 程 可 以 用 相对 新 帧 指针 的 非 负 伪 移 来 访问 它们 。 

被 调用 过 程 传递 返回 值 通常 用 与 调用 过 程 传递 参数 相同 的 方法 来 实现 ， 除 此 之 外 ， 在 多 数 
语言 中 ， 过 程 不 会 有 一 个 以 上 的 返回 值 ， 并 且 为 了 使 过 程 是 可 再 入 的 〈reentrant)， 即 在 同一 时 
刻 可 有 多 个 控制 线程 执行 它 ， 还 需要 一 些 特别 的 考虑 。 实 现 可 再 入 的 办 法 是 ， 将 那些 由 于 体积 
太 大 而 不 能 保存 在 寄存 器 中 的 值 存放 在 调用 过 程 提 供 的 存储 单元 中 返回 。 为 此 ， 调 用 过 程 必 须 
提供 指向 接收 这 个 返回 值 的 存储 单元 的 指针 (通常 作为 额外 的 一 个 隐 含 参数 )， 这 样 被 调用 
过 程 能 将 返回 值 存放 在 其 中 ， 而 不 是 由 它 自己 为 这 个 值 提供 存储 单元 。 


一 种 典型 的 寄存 器 用 法 如 下 所 示 : 
寄存 器 用 法 
ro 0 
ri-r5 参数 传递 
r6 幅 指 针 
r7 栈 指针 
r8-r19 调用 过 程 保 护 的 
r20-r30 被 调用 过 程 保护 的 
r31 返回 地 址 
f0~E4 参数 传递 
f5~f18 调用 过 程 保护 的 
£19-£31 被 调用 过 程 保护 的 





并 且 返 回 值 将 依据 其 类 型 放 在 zl 或 E0 中 。 我 们 选择 图 5-9 所 示 的 栈 结构 ， 其 中 假定 局 部 变量 占 
4 个 字 ，gr 和 fr 分 别 是 通用 寄存 器 (general register) 和 浮 点 寄存 器 (float-point register) 的 缩 
写 。 当 参数 太 多 以 至 于 不 能 将 它们 全 部 用 寄存 器 传递 时 ， 有 些 参 数 就 可 能 需要 通过 栈 来 传递 。 
它们 的 栈 空间 将 分 配 在 fp-128 和 sp+104 之 间 。 练 习 5.4 要 求 你 写 出 这 一 模型 的 过 程 调用 、 入 
口 处 理 、 参 数 的 使 用 、 出 口 处 理 及 返回 的 代码 。 


5.6.2 用 运行 时 栈 传递 参数 


在 基于 栈 的 模型 中 ， 参 数 被 压 至 运行 时 栈 中 ， 并 从 栈 中 访问 它们 。 在 寄存 器 数量 较 少 且 有 
栈 操作 指令 的 机 器 中 ， 如 VAX 和 Intel 386 体 系 结构 ， 我 们 使 用 那 种 将 参数 存储 到 栈 中 的 指令 。 
例如 ， 对 于 Intel 386 体 系 结构 ， 如 下 压 栈 指令 


rl ~ 5 It put third argument on stack 
sp + sp- 4 


将 被 指令 


pushl 5 ; push third argument onto stack 


所 趟 代 。 此 外 ， 在 将 参数 压 人 栈 后 也 不 需要 调整 栈 指针 一 -pushl 指 令 将 自动 完成 。 返 回 值 可 


日 ”如果 调用 者 也 提供 该 区 域 的 大 小 作为 隐 含 的 参数 ， 被 调用 者 就 能 检查 它 所 返回 的 值 是 全 能 被 该 区 域 容纳 。 





以 放 在 寄存 器 中 ， 也 可 以 放 在 栈 中 。 在 我 们 的 例子 中 使 用 浮 点 寄存 器 栈 顶 。 

Intel 386 和 它 以 后 的 微 处 理 器 体系 结构 提供 了 8 个 32 位 的 整数 寄存 器 ， 其 中 6 个 是 eax、 
ebx、ecx、edqx、esi 和 edqi ， 它 们 对 于 大 多 数 指令 而 言 是 通用 寄存 器 。 另 外 两 个 ebp 和 esp 
分 别 是 基 指 针 ( 即 帧 指针 ) 和 栈 指针 。 该 体系 结构 还 提供 了 8 个 80 位 的 浮 点 寄存 器 ， 即 st (0) 
到 st (7) ， 它 们 具有 栈 的 功能 ， 其 中 st (0) 作为 栈 顶 。 特 别 地 ， 浮 点 返回 值 放 置 在 st (0) 中 。 
这 种 运行 时 栈 的 布局 如 图 $-10 所 示 。 


tp 
fp-8 返回 地 址 


fp-12 DO 
被 调用 过 程 保 存 的 grs 





fp-56 (247) ebp+20 
fp-60 ebpti6 
被 调用 过 程 保存 的 frs ebp+12 
(M) ebpre 
MM oppr4 
局 部 变 最 ebp 
(4 个 宁 ) ebp-4 
fp-128 局 部 变量 
sp+100 (4 字 ) 
调用 过 程 保 存 的 grs ebp-16 
spre0 aem cepts 
sp+56 esp+4 
调用 过 程 保存 的 frs esp 
(14 个 字 ) 
spt4 
sp 
图 5-9 用 寄存 器 传递 参数 的 过 程 调用 图 5-10 在 Intel 386 体 系 结构 系列 上 ， 用 运行 时 栈 


例子 的 栈 帧 结构 传递 参数 的 过 程 调用 例子 的 栈 帧 结构 
练习 5.5 要 求 你 为 这 种 模型 生成 过 程 调用 、 入 口 处 理 、 参 数 的 使 用 、 出 口 处 理 及 返回 的 代码 。 
5.6.3 用 具有 寄存 器 窗口 的 寄存 器 传递 参数 


寄存 器 窗口 ， 如 SPARC 所 提供 的 ， 简 化 了 向 被 调用 过 程 传递 参数 和 从 被 调用 过 程 返回 结果 
的 处 理 。 它 也 在 相当 大 的 程度 上 减少 了 存 / 取 指令 的 执行 次 数 ， 因 为 它们 能 够 提供 更 大 的 寄存 
器 文件 而 不 增加 指明 寄存 器 号 所 需要 的 位 数 (典型 的 实现 提供 了 7 个 或 8 个 窗口 ， 总 共 128 或 144 
个 整数 寄存 器 ) ， 并 且 利用 了 过 程 调用 期 间 的 局 部 性 。 

寄存 器 窗口 的 用 法 规定 将 整数 寄存 器 部 分 地 划分 为 调用 过 程 使 用 的 和 被 调用 过 程 使 用 的 : 
被 调用 过 程 访 问 不 到 调用 过 程 的 /oca! 寄 存 器 ， 反 过 来 ， 调 用 过 程 也 访问 不 到 被 调用 过 程 的 local 
SER; 调用 过 程 的 ou 寄存 器 是 被 调用 过 程 的 in 寄 存 器 ， 并 且 主 要 的 专用 寄存 器 (包括 返回 地 
址 和 调用 者 的 栈 指针 ， 后 者 变 成 了 被 调用 过 程 的 帧 指针 ) 或 接收 参数 所 使 用 的 寄存 器 也 是 这 
Bi; 被 调用 过 程 的 ovt 寄 存 器 可 作为 临时 用 途 和 用 于 传递 参数 给 它 所 调用 的 子 程序 。 保 存 寄存 
器 窗口 中 的 寄存 器 的 值 到 内 存 和 从 内 存 恢复 它们 是 由 窗口 溢出 和 填充 自 陷 处 理 程序 来 完成 的 ， 
不 需要 用 户 代码 。 图 5-11 说 明了 在 三 个 子 程序 的 寄存 器 窗口 之 间 的 重合 关系 。 





90 BS 


调用 者 的 窗口 


















r31 (i7) 
: ins 

r24 (i0) 

r23 (17) 

locals 





r16 (10) 当前 窗口 


rib (o7) r31 (i7) 
: outs : ins 
r8 (00) r24 (i0) 








r23 (17) 
locals 


r16 (10) 被 调用 者 的 窗口 


rib (o7) r31 (i7) 
: outs : ins 
r8 (o0) r24 (i0) 


r23 (17) 





locals 






r16 (10) 






ri5 (o7) 


outs 





r8 (00) 


r7 (g7) 
globals 


ri (g1) 





ro (g0) 0 
图 $-11 SPARC 中 三 个 连续 过 程 调用 的 寄存 器 窗口 


当 执行 过 程 调用 时 ， 约 定 out 害 存 器 o0 到 o5 包 含 传递 给 当前 过 程 的 整 型 参数 〈 浮 点 参数 传 
递 在 浮 点 寄存 器 中 )， 约 定 栈 指针 sp 在 c6 中 ， 帧 指针 fp 在 16 中 。 因 此 ， 被 调用 过 程 执行 
save 指 令 将 导致 sp 变 为 新 tp。 多 余 的 参数 (如 果 有 的 话 ) 同 平面 寄存 器 模式 一 样 在 运行 时 
栈 中 传递 。 当 过 程 返 回 时 ， 如 果 返 回 值 是 整 型 值 ， 将 它 放 在 一 个 in 寄 存 器 中 ， 如 果 是 浮 点 值 ， 
将 它 放 在 浮 点 寄存 器 中 。 然 后 通过 发 出 一 条 restore 指 令 回 到 前 一 寄存 器 窗口 并 恢复 调用 者 

图 $-12 展 示 了 SPARC 的 典型 栈 帧 布局 。sp 到 sp+60 的 16 个 字 的 存储 单元 用 于 寄存 器 窗口 
溢出 和 填充 自 陷 处 理 程序 ,这 个 程序 将 当前 寄存 器 窗口 的 in 和 out 存 储 于 这 片区 域 。 正 因 如 此 ， 
sp 必须 总 是 指向 合法 的 溢出 区 ; 因此 它 只 可 由 save 和 restore 指 令 来 修改 。save 指 令 用 
于 前 进 到 一 个 新 的 窗口 并 立即 分 配 一 个 新 栈 帧 ，restore 指 令 则 逆转 此 过 程 。 在 地 址 
sp+64 的 字 用 于 返回 结构 或 联合 给 调用 过 程 ， 它 由 调用 过 程 设置 为 接收 该 值 的 那 片 存储 单元 

的 地 址 。 
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整 型 参数 的 前 6 个 字 在 寄存 器 中 传递 ， 后 续 参数 在 栈 中 传递 。 如 果 需 要 依次 访问 可 变 长 度 
参数 表 ， 入 口 点 的 代码 将 从 sp+68 开 始 存储 前 6 个 参数 。 从 
sp+92 开 始 的 区 域 用 于 容纳 其 他 参数 和 临时 变量 ， 以 及 用 于 ' 
保存 全 局 和 浮 点 寄存 器 ( 当 这 些 寄存 器 需要 保存 时 ). Nn. e 
车 图 5-12 中 的 b 是 32， 则 整个 栈 帧 的 大 小 是 148 字 节 ， 

练习 5.6 要 求 你 为 这 种 模型 生成 过 程 调用 、 入 口 处 理 、 参 。 P20 
数 的 使 用 、 出 口 处 理 及 返回 的 代码 。 spi 
56.4 过 程 值 变量 


调用 一 个 由 变量 指定 的 过 程 ， 在 设置 其 环境 时 需要 特殊 。 
的 处 理 。 如 果 这 个 过 程 是 局 部 的 ， 则 必须 传递 给 它 一 个 适合 P JAER 
于 它 的 静态 链 。 最 好 的 做 法 是 ， 这 个 变量 的 值 不 是 过 程 代码 。 sp+68 
的 地 址 ， 而 是 指向 一 个 过 程 描述 字 (procedure descriptor) sp+64 
的 指针 ; 这 个 过 程 描述 字 中 含有 过 程 代码 的 地 址 和 静态 链 ， “| emer iii 
我 们 在 图 5-13 给 出 了 这 样 一 个 描述 字 。 给 定 这 种 描述 字 设 计 ， (16%) 
无 论 采 用 什么 参数 传递 模式 ， 与 “调用 ”相关 的 代码 都 必须 T 
An fica AEM e coh dob ERR SERIA CERO 图 5.12 在 具有 寄存 器 窗口 的 情况 下 
地 址 。 为 了 调用 这 个 过 程 ， 我 们 先 要 取 过 程 的 地 址 到 寄存 器 ， 过 程 调用 例子 的 术 由 结构 sh 
取 静 态 链 到 适当 的 寄存 器 ， 然 后 执行 基于 寄存 器 的 调用 。 因 
为 这 种 代码 序列 很 短 而 且 是 不 变 的 ， 因 此 可 以 采用 另 一 种 方 
法 。 我 们 可 以 生成 这 种 代码 序列 的 一 个 副本 ， 通 过 调用 这 个 4 OOOO BR O 
副本 实现 对 所 有 过 程 变量 的 过 程 调用 ， 并 在 代码 末尾 用 一 个 ° 
基于 寄存 器 的 分 支 转移 替代 基于 寄存 器 的 调用 ， 因 为 正确 的 ”图 5-13 包含 过 程 的 地 址 和 它 的 
返回 地 址 就 是 用 来 调用 这 段 代 码 序列 的 指令 的 地 址 。 静态 链 的 过 程 描述 字 


5.7 代码 共享 与 位 置 无 关 代 码 


前 面 我 们 一 直 隐 含 地 假设 ， 一 个 运行 程序 除了 调用 操作 系统 的 服务 之 外 ， 是 自我 包含 的 进 
程 ， 即 调用 的 所 有 库 例 程 都 是 (在 执行 之 前 ) 与 用 户 代码 静态 链接 的 ， 并 且 为 了 能 够 执行 ， 所 
要 做 的 一 切 只 是 : 装载 程序 的 执行 映像 到 存储 器 ， 将 环境 初始 化 为 适合 于 操作 系统 的 标准 程序 
设计 模式 ， 以 及 用 适当 的 参数 调用 程序 的 主 过 程 。 这 种 模式 有 儿 个 缺点 ， 包 括 空间 利用 率 不 高 ， 
以 及 将 用 户 的 程序 和 库 连 接 起 来 所 需 的 时 间 较 长 。 这 些 缺 点 可 以 通过 使 用 所 谓 的 共享 库 
(shared libraries) 而 避免 ， 共 享 库 在 程序 执行 时 根据 需要 动态 地 被 链接 和 装载 ， 其 代码 由 引用 
它们 的 所 有 程序 所 共享 。 共 享 库 模式 有 以 下 一 些 优点 : 
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局 部 变 最 
(4T) 


MIER, An RIT AS 
央企 器 保护 区 ， 参 数 
7,8… 












第 1 至 6 个 参数 的 存储 区 


表示 structure 或 union) 


1. 在 文件 系统 中 ， 共 享 库 只 需 存 在 一 个 副本 ， 无 需 作为 每 一 个 可 执行 程序 的 一 部 分 而 存在 。 


2. 在 存储 器 中 ， 共 享 库 代码 只 需 存在 一 个 副本 ， 无 需 作 为 每 一 个 正在 执行 的 程序 的 一 部 分 
而 存在 。 

3. 假设 在 共享 库 的 实现 中 存在 一 个 错误 ， 只 要 库 的 接口 不 变 ， 这 个 库 就 可 以 用 一 个 新 的 版 
本 替换 ,而 且 使 用 它 的 程序 无 需 重新 进行 链接 一 一 已 经 执行 的 程序 可 以 继续 使 用 文件 系统 中 原 
先 已 调用 的 那个 老 库 的 副本 ， 但 是 这 个 程序 和 其 他 程序 的 新 的 库 调用 将 使 用 这 个 新 库 的 副本 。 

注意 , 将 程序 与 非 共享 库 链接 通常 只 需要 程序 调用 的 子 程序 ,外 加 这 些 子 程序 的 传递 闭 包 ， 
而 不 需要 整个 库 。 但 是 这 并 不 能 节省 大 量 空间 一 一 尤其 对 于 较 大 、 较 复杂 的 库 而 言 ， 例 如 那些 








- 
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实现 窗口 和 图 形 系统 的 库 一 这 种 效果 会 传播 到 所 有 与 一 个 给 定 的 库 进 行 链接 的 程序 ， 因 而 受 
欢迎 的 总 是 共享 库 。 

较 复杂 的 问题 是 需要 保持 这 种 链接 的 语义 与 静态 链接 的 语义 尽 可 能 一 致 , 其 中 最 重要 的 是 ， 
要 能 够 在 执行 之 前 确定 库 中 确实 具有 所 有 需要 的 子 程序 ， 这 样 才能 预先 指出 动态 链接 是 否 能 成 
功 ， 即 ， 是 否 会 遇 到 未 定义 的 或 多 次 定义 的 外 部 符号 。 这 种 能 力 可 通过 给 每 一 个 共享 库 提 供 一 
个 目录 而 获得 ， 这 个 目录 列 出 了 库 中 所 有 的 人口 点 和 外 部 符号 ， 以 及 库 中 每 一 个 子 程序 用 到 的 
入 口 点 和 外 部 符号 。 图 5-14 给 出 了 一 个 例子 ， 其 中 第 一 列 列 出 了 这 个 共享 库 中 的 入 口 点 和 要 让 
外 部 知道 的 名 字 , 第 二 和 第 三 列 列 出 了 它们 所 在 的 共享 库 , 以 及 它们 所 使 用 的 入 口 点 和 外 部 名 。 
执行 之 前 的 链接 仅仅 检查 要 动态 链接 的 库 对 应 的 目录 表 ， 因 而 能 够 同 静态 链接 一 样 报告 未 定义 
的 符号 。 运 行 时 的 动态 链接 则 要 保证 当 且 仅 当 静态 链接 失败 时 才 失 败 。 但 是 ， 当 用 户 在 一 个 静 
态 库 的 前 面 链接 一 个 动态 库 ， 或 静态 地 同时 链接 一 个 静态 库 和 一 个 动态 库 ， 则 我 们 还 是 会 看 到 


有 某 些 细微 的 不 同 。 
给 出 的 入 口 点 和 使 用 的 入 口 点 和 
外 部 符号 | 使 用 的 共享 库 | ”站 部 符号 
entryi libraryl 


library2 entry4 
SS 


图 5-14 共享 库 目录 表 的 例子 


另外 ， 共 享 的 代码 不 必 构 成 一 个 库 ， 尽 管 传统 上 使 用 术语 “共享 库 ”， 它 实际 上 仅仅 是 些 
个 体 ， 这 些 个 体 是 程序 在 运行 时 选择 链接 的 ， 而 不 是 运行 之 前 选择 的 。 为 了 反映 这 一 事实 ， 我 
们 在 本 节余 下 的 部 分 中 称 这 种 个 体 为 共享 对 象 (shared object)， 而 不 称 它们 为 共享 库 。 

当 单独 运行 一 个 程序 时 ， 共 享 对 象 确实 对 性 能 有 影响 ， 但 在 多 道 程序 的 系统 中 ， 这 种 影响 
会 由 于 工作 集 所 占 空间 的 减少 而 完全 (或 几乎 完全 ) 抵消 ， 因 为 工作 集 的 减 小 会 得 到 更 好 的 存 
储 页 面 和 高 速 缓存 性 能 。 性 能 影响 来 源 于 两 方面 ， 即 ， 运 行 时 链接 的 开销 ， 以 及 共享 代码 必须 
由 位 置 无 关 (position-independent) 代码 组 成 ， 并 且 每 一 个 被 链接 的 程序 都 必须 为 共享 对 象 的 
私有 数据 分 配 一 个 副本 ， 这 导致 增加 了 访问 这 些 数 据 的 开销 。 位 置 无 关 代 码 是 可 以 装载 在 不 同 
程序 中 不 同 地址 的 代码 。 l 

下 面 我 们 讨论 在 支持 共享 对 象 过程 中 所 涉及 的 问题 。 因 为 程序 的 大 小 不 一 ， 并 且 可 能 按 任 
意 顺 序 需 要 共享 对 象 ， 为 了 使 共享 对 象 的 每 一 个 用 户 都 能 将 共享 对 象 自由 地 映射 到 存储 器 中 任 
意 的 地 址 (除了 可 能 需 服从 诸如 页 大 小 之 类 的 对 齐 条 件 之 外 )， 必 须 实现 位 置 无 关 性 。 访 问 共 
享 对 象 内 的 局 部 变量 不 会 有 问题 ， 因 为 它们 要 么 在 寄存 器 中 , 要 么 在 通过 寄存 器 访问 的 区 域 中 ， 
因而 它们 是 进程 私有 的 。 访 问 全 局 变量 会 有 问题 ， 因 为 它们 常常 被 放置 在 绝对 地 址 中 ， 而 不 是 
相对 寄存 器 的 地 址 中 。 调 用 共享 对 象 中 的 子 程序 也 会 有 问题 ， 因 为 一 直 要 到 子 程序 已 经 装 入 后 
我 们 才能 知道 它 的 地 址 。 因 此 ， 为 了 使 得 对 象 是 位 置 无 关 的 ， 并 因此 是 可 共享 的 ， 需 要 解决 四 
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个 问题 ，(1) 如 何在 共享 对 象 内 实现 控制 转移 ? (2) 共享 对 象 如 何 访问 它 自 己 的 外 部 变量 ? 
(3) 如 何在 共享 对 象 之 间 实 现 控 制 转移 ? (4) 共享 对 象 如 何 访问 属于 其 他 对 象 的 外 部 变量 ? 

在 大 多 数 系统 中 ， 在 对 象 之 内 进行 控制 转移 是 容易 的 ， 因 为 这 些 系统 都 提供 了 相对 程序 计 
数 器 的 〈 即 基于 位 置 的 ) 分 支 转移 和 调用 。 即 使 对 象 作为 一 个 整体 必须 按 装载 时 可 定位 于 任何 
位 置 的 方式 来 编译 ， 对 象 内 的 位 置 的 相对 偏 移 在 编译 时 却 是 固定 的 ， 因 此 ， 相 对 程序 计数 器 
(PC) 的 转移 正好 可 以 满足 其 需要 。 如 果 体 系 结构 没有 提供 相对 PC 的 调用 ， 则 可 以 通过 一 系列 
指令 来 模拟 ， 这 些 指令 用 调用 目标 相对 当前 点 的 偏 移 来 构造 调用 目标 的 地 址 ， 其 方法 如 下 所 述 。 

共享 对 象 的 一 个 实例 访问 它 自己 的 外 部 变量 时 也 需要 采用 位 置 无 关 的 方法 。 因 为 处 理 器 一 
般 不 提供 相对 PC 的 取 和 存 指令 ， 因 此 必须 采用 不 同 的 技术 。 最 常用 的 方法 是 使 用 所 谓 的 全 局 
偏 移 表 (global offset table)， 即 GOT。GOT 驻 存在 一 个 所 谓 的 动态 区 域内 ， 这 个 动态 区 域 位 于 
对 象 的 数据 空间 中 ， 一 开始 时 它 包含 着 外 部 符号 的 偏 移 。 当 这 个 对 象 被 动态 链接 时 ，GOT 中 的 
这 些 偏 移 被 转变 成 当前 进程 数据 空间 内 的 绝对 地 址 。 这 个 动态 区 域 是 那些 引用 外 部 量 的 过 程 为 
获得 对 GOT 的 寻 址 能 力 而 保留 的 。 外 部 变量 的 寻 址 通过 如 下 所 示 的 LIR 代 码 序 列 来 实现 : 


gp < GOT.off - 4 
call  next,r31 
next: gp < gp + r31 


其 中 ，Gom_off 是 GOT 相 对 于 使 用 它 的 这 条 指令 的 地 址 。 这 段 代 码 设置 全 局 指针 gp 指向 GOT 
的 基 址 。 现 在 过 程 便 可 通过 GOT 中 给 出 的 外 部 变量 的 地 址 来 访问 外 部 变量 了 。 例 如 ， 为 了 将 其 


地 址 存储 在 GOT 中 a_off 之 处 的 整 型 外 部 变量 a 的 值 取 至 寄存 器 r3， 应 当 执 行 如 下 代码 : 


r2 «- [gp*a.off] : 
r3 © [r2] 


第 一 条 指令 取 a 的 地 址 到 r2， 第 二 条 指令 取 a 的 值 到 r3。 注 意 ， 为 了 保证 这 段 代码 能 够 工作 ， 


GOT 不 能 大 于 存 和 取 指 令 中 可 表示 的 偏 移 范围 的 绝对 值 。 对 于 RISC 机 器 ， 如 果 需 要 更 大 的 范 | 


围 ， 则 需要 如 下 面 所 示 ， 在 第 一 条 取 指 令 之 前 生成 额外 的 指令 来 设置 地 址 的 高 位 。 

r3 «- high_part (a_off) 

r2 < gp + r3 

r2 «€ (r2*1ow, part(a off)] 

r3 « [r2] 

其 中 high_part () fülow part () 给 出 其 参数 的 高 部 和 低 部 ， 即 参数 被 一 分 为 二 。 由 于 这 一 
原因 ， 编 译 器 可 为 位 置 无 关 的 代码 生成 提供 两 种 选择 一 一 一 个 含有 ， 另 一 个 不 含 额外 的 指令 。 

在 对 象 之 间 进 行 控制 转移 不 像 在 对 象 之 内 进行 控制 转移 那样 容易 ， 因 为 在 编译 时 不 知道 对 
象 的 相对 位 置 ， 甚 至 在 程序 刚 装 入 时 也 不 知道 其 位 置 。 标 准 的 做 法 是 ， 为 对 象 所 调用 的 每 一 个 
子 程序 提供 一 个 桩 (stub)， 这 个 桩 作为 被 调用 子 程序 的 目标 地 址 ， 它 放置 在 调用 对 象 的 数据 
空间 ， 而 不 是 该 对 象 的 只 读 代 码 空 间 。 这 样 ， 在 执行 期 间 当 调 用 这 个 子 程序 时 便 能 够 修改 这 个 
桩 ， 从 而 使 得 该 子 程序 被 装 和 (如 果 这 是 它 在 被 调用 对 象 中 的 第 一 次 使 用 ) 和 被 链接 。 

有 若干 种 策略 能 使 这 种 桩 起 作用 。 例 如 ， 每 一 个 桩 可 以 由 它 对 应 的 子 程序 名 和 一 个 对 动态 
链接 器 的 调用 组 成 ， 动 态 链接 器 则 用 对 实际 子 程序 的 调用 指令 来 替换 这 个 桩 开始 处 的 内 容 。 如 
果 系 统 提供 相对 寄存 器 的 分 支 指令 ， 则 另 一 种 可 选 方法 是 ， 将 这 些 桩 组 织 成 一 种 称 为 过 程 链接 
A (procedure linkage table, PLT) 的 结构 ,保留 第 一 个 桩 用 于 调用 链接 器 ,第 二 个 桩 用 于 标识 
共享 对 象 ， 其 他 每 一 个 桩 构造 它 所 对 应 子 程序 的 再 定位 信息 索引 ， 然 后 转移 到 第 一 个 桩 (由 此 
调用 动态 链接 器 )。 这 种 方法 能 以 一 种 懒惰 方式 来 解析 这 些 柱 ， 即 仅 在 需要 时 才 进 行 解析 ， 而 且 
它 的 几 个 版 本 已 用 于 若 千 个 动态 链接 系统 。 以 SPARC 为 例 ， 假 设 我 们 有 三 个 过 程 的 桩 、 图 5-15a 
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和 b 分 别 展示 了 在 装载 之 前 和 第 一 个 子 程序 与 第 二 个 子 程序 已 经 动态 链接 后 的 PLT 形 式 。 在 装载 
之 前 ， 前 两 个 PLT 项 为 空 ， 其 他 三 个 PLT 项 中 每 一 项 都 包含 了 计算 该 项 在 PLT 中 的 偏 移 并 转移 到 第 
一 项 的 指令 。 在 将 共享 对 象 装载 到 内 存 时 ， 动态 链接 器 设置 前 两 项 ， 如 图 5-15b 所 示 一 一 第 二 项 标识 
该 共享 对 象 ， 第 一 项 创建 栈 帧 并 调动 态 链接 器 一 一 其 他 项 没有 改变 ， 如 .PLT3 项 所 示 。 当 PLT 第 
二 项 对 应 的 过 程 ， 比 如 说 £ () ， 第 一 次 被 调用 时 ， 导 致 在 .PLT2 的 桩 被 启用 ， 此 时 这 个 桩 仍然 具 
有 图 5-15a 所 示 形 式 。 它 放置 由 sethi 计 算出 的 相对 .PLT0 的 偏 移 于 寄存 器 gl 中， 然后 转移 
到 .PLT0。 .PLT0 处 的 指令 启动 动态 链接 器 。 动 态 链 接 器 使 用 对 象 标 识字 和 gl 的 值 来 获得 f O RS 
再 定位 信息 ， 并 相应 地 修改 . PLT2 项 以 创建 一 条 转移 至 £() 的 Jmp1 指 令 ， 这 条 指令 不 计算 返回 
地 址 GER, 在 下 一 项 中 的 sethi 指 令 也 会 执行 ， 它 位 于 jmpl 的 延迟 槽 内 , 但 这 不 会 引起 问题 )。 
于 是 ， 从 此 以 后 ， 这 个 对 象 中 对 PLT 中 关于 f O 项 的 调用 就 将 带 有 正确 的 返回 地 址 转移 至 f () 。 

访问 其 他 对 象 的 外 部 变量 本 质 上 与 访问 自己 的 外 部 变量 相同 ， 不 同 的 只 是 使 用 的 是 那个 对 
象 的 GOT。 

一 个 有 点 复杂 的 问题 是 如 何在 运行 时 形成 过 程 的 地 址 ， 将 它 作为 变量 的 值 保 存 ， 并 将 它 与 
另外 的 过 程 地 址 进行 比较 。 对 于 共享 对 象 内 的 一 个 过 程 的 地 址 ， 如 果 在 共享 对 象 内 进行 计算 时 
是 它 的 第 一 条 指令 的 地 址 ， 而 当 在 共享 对 象 之 外 进行 计算 时 ， 是 与 它 对 应 的 桩 中 第 一 条 指令 的 
地 址 ， 我 们 便 违背 了 C 语 言 和 其 他 若干 语言 的 特征 。 解 决 这 个 问题 的 方法 比较 简单 : 在 共享 对 
象 内 和 共享 对 象 外 两 种 情况 下 ， 我 们 都 使 用 过 程 描 述 字 〈 如 前 一 节 所 述 )， 但 将 它们 修改 为 包含 
PLT 项 的 地 址 而 不 是 过 程 代 码 的 地 址 ， 同 时 还 扩充 它们 使 其 包含 含有 这 个 被 调用 过 程 的 对 象 的 
GOT 地 址 。 尽 管 这 样 做 使 得 通过 过 程 变量 执行 的 调用 所 使 用 的 代码 序列 需要 保存 和 恢复 GOT 指 
针 ， 但 其 结果 导致 这 种 描述 字 可 统一 用 作 过 程 变量 的 值 ， 并 且 可 以 用 它们 正确 地 执行 比较 操作 。 





unimp 

unimp 

unimp 

unimp 

unimp 

unimp 

sethi (.-.PLTO),gi 
ba,a .PLTO . 
no 

sethi (.-.PLTO),gi1 
ba,a .PLTO 

nop 

sethi (.-.PLTO),g1 
ba,a .PLTO 

nop 

nop 


-PLTO: save sp,-64,sp 
call dyn linker 
nop 

-PLT1: .word object, id 
unimp 
unimp 
sethi (.-.PLTO), gi 
sethi Ahi(f),gi 
jmpl gi^41o(f),r0 
sethi (.-.PLTO),g1 
ba,a .PLTO 
nop 
sethi (.-.PLTO),gi 
sethi “hi(h),g1 
jmpl gi+%lo(h),r0 
nop 


a) b) 


图 5-15 SPARC 的 PLT: a) 装载 之 前 ，b) 两 个 子 程序 已 经 被 动态 链接 之 后 


5.8 符号 和 多 态 语 言 支 持 


本 书 介绍 的 多 数 编译 技术 主要 是 针对 那些 十 分 适宜 编译 的 语言 ， 即 具有 静态 的 、 编 译 时 的 
类 型 系统 的 语言 。 这 类 语言 不 允许 用 户 增 量 地 改变 代码 ， 并 且 通 常 更 多 地 使 用 栈 空间 而 不 是 堆 
存储 空间 。 

本 节 我 们 简要 地 讨论 编译 那些 用 更 动态 的 语言 编写 的 程序 时 遇 到 的 问题 。 这 些 语 言 包括 
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LISP, ML. Prolog. Scheme, SELF, Smalltalk, SNOBOL#Java¥, Ef]—R ARREARS 
数据 ， 并 且 具 有 运行 时 给 予 的 类 型 和 多 态 运 算 。 其 他 更 多 关于 这 类 语言 的 处 理 ， 我 们 推荐 读者 
阅读 [Lee91]。 为 这 类 语言 生成 有 效 的 代码 需要 解决 5 个 主要 的 问题 ， 这 些 问 题 超 出 了 本 书 余下 
章节 所 考虑 的 范围 ， 它 们 是 : 

1. 有 效 处 理 ; 运行 时 类 型 检查 和 函数 多 态 性 的 方法 ; 

2. 语言 的 基本 运算 的 快速 实现 ; 

3. 快速 的 函数 调用 以 及 使 它们 更 快 的 优化 方法 ; 

4. 堆 存 储 管理 ; 

5. 对 正在 运行 的 程序 进行 增 量 性 改变 的 有 效 处 理 方法 。 

这 类 语言 多 数 都 需要 运行 时 的 类 型 检查 ， 因 为 它们 给 数据 而 不 是 给 变量 指定 类 型 。 因 此 ， 
当 编 译 时 过 到 一 个 形 为 “a+b” 或 “(plus a b) ”的 运算 , 或 某 个 特定 语言 可 能 有 的 某 种 形 
式 的 运算 时 ， 我 们 一 般 无 法 知道 要 执行 的 这 个 运算 类 型 是 整数 、 浮 点 数 、 有 理 数 ， 或 是 任意 精 
度 实 数 的 加 法 ; 还 是 两 个 表 或 两 个 字符 串 的 联接 运算 ; 还 是 由 它 的 两 个 操作 数 类 型 而 确定 的 另 
外 的 某 种 运算 。 因 此 编译 器 生成 的 代码 总 是 包含 类 型 信息 ， 需 要 对 操作 数 类 型 进行 检查 ， 并 根 
据 类 型 转移 至 相应 代码 来 实现 每 一 种 运算 。 一 般 而 言 ， 最 常见 的 需要 检测 和 快速 区 分 的 是 整数 
算术 运算 和 对 某 种 其 他 数据 类 型 的 运算 ， 如 LISP 和 ML 中 的 表单 元 类 型 、SNOBOL 中 的 字符 串 
类 型 ， 等 等 。 

多 数 系统 中 ， 体 系 结构 对 类 型 检查 的 支持 都 极 少 。 不 过 SPARC 提 供 了 带 标 签 的 加 法 和 减法 
指令 ， 这 种 指令 在 执行 加 法 或 减法 运算 的 同时 ， 并 行 检查 两 个 32 位 操作 数 低 端的 两 位 是 否 为 0。 
如 果 不 是 0， 根 据 用 户 的 选择 ， 要 么 产生 一 个 自 陷 ， 要 么 设置 一 个 条 件 码 ， 并 且 不 将 运算 结果 
写 人 目的 寄存 器 。 这 样 ， 通 过 在 一 个 字 的 低 端的 两 位 放置 部 分 标签 信息 ， 可 以 用 很 廉价 的 方法 
检测 出 一 条 加 或 减 操作 是 否 有 整数 操作 数 。 其 他 有 些 RISC 机 器 ， 如 MIPS 和 PA-RISC iit te 


供与 直接 数 比较 并 分 支 的 指令 来 支持 某 种 更 低级 的 类 型 检查 。 这 种 指令 可 以 只 用 一 条 指令 检查 


每 一 个 操作 数 的 标签 ， 因 而 开销 只 有 2~4 个 时 钟 周期 ， 具 体 开 销 取决 于 分 支 延 迟 模 的 填充。 
SPARC 中 也 可 用 一 个 字 的 低 端 的 两 位 来 做 至 少 一 种 以 上 的 类 型 检查 ， 比 如 LISP 中 的 表单 元 
类 型 。 假 设 表单 元 是 双 字 ， 如 果 用 第 一 个 字 的 地 址 加 3 作为 指向 第 一 个 表单 元 的 指针 (假设 该 


指针 在 寄存 器 rl 中 )， 则 对 car 和 cdr 域 的 访 ri[ 503 4 
间 将 使 用 形 如 r1-3 和 r1+1 的 地 址 ， 并 且 当 且 


仅 当 访 问 它们 的 存 取 指令 中 所 使 用 的 指针 的 car cdr 
低 端 两 位 为 3 ( 即 标签 3) 时 ， 其 地 址 才 是 合 500 504 
法 的 (参见 图 $-16)。 注 意 ， 这 还 留 下 了 两 个 图 5-16 LISP 表 单元 和 SPARC 中 指向 它 
标签 值 (1 和 2)， 一 个 可 用 于 另 一 种 类 型 ， 另 的 带 标签 的 指针 


一 个 可 作为 指示 器 用 于 其 他 需要 访问 更 详细 类 型 信息 的 情形 。 

奇 地 址 的 标签 设计 方法 也 可 用 于 其 他 几 种 RISC 体 系 结构 。[Lee91] 中 讨论 了 另外 一 些 给 数 
据 加 标签 的 有 效 方法 。 

除了 其 他 内 容 ，9.6 节 还 关注 了 用 于 这 种 情形 的 一 些 软件 技术 ， 即 在 可 能 的 地 方 给 那 种 严 
格 地 说 只 有 数据 对 象 具 有 类 型 的 语言 中 的 变量 指定 类 型 。 

快速 的 函数 调用 是 这 些 语言 的 基本 要 求 ， 因 为 这 类 语言 强烈 地 鼓励 将 程序 划分 为 许多 小 函 
数 。 多 态 性 影响 函数 调用 的 开销 ， 因 为 它 导致 在 代码 运行 时 才能 根据 参数 的 类 型 确定 具体 的 调 
用 。RISC 在 这 一 方面 较为 理想 ， 因 为 它们 一 般 通 过 提供 分 支 并 链接 指令 和 在 寄存 器 中 传递 参 
数 实现 了 快速 的 函数 调用 ， 并 且 在 多 数 情况 下 提供 了 根据 一 个 或 多 个 参数 的 类 型 决定 分 支 的 快 
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速 方法 。 可 以 将 一 个 参数 的 类 型 放 在 一 个 寄存 器 中 ， 并 将 它 转换 为 大 小 适当 的 偏 移 ， 然 后 按 分 
支 开关 表 转 移 到 实现 对 应 类 型 函数 的 代码 。 . 

动态 语言 和 符号 语言 一 般 多 使 用 堆 空间 ， 很 大 原因 是 因为 它们 设计 的 操作 对 象 的 大 小 和 
形状 多 是 动态 的 ， 因 此 ， 具 有 非常 有 效 的 堆 存 储 空间 分 配 和 恢复 机 制 是 基本 的 要 求 。 存 储 空 
间 的 恢复 通过 垃圾 收集 而 不 是 显 式 的 释放 来 实现 。 这 类 语言 常用 的 最 有 效 的 垃圾 收集 方法 是 
阶段 清除 (generation scavenging ) ， 它 所 基于 的 原理 是 : 已 经 存活 得 较 久 的 对 象 还 可 能 存活 
得 更 久 。 

最 后 ， 增 量 性 地 改变 运行 中 程序 代码 的 能 力 是 这 类 语言 多 数 具 有 的 一 个 特征 。 在 已 有 的 编 
译 实现 中 ， 这 种 能 力 一 般 通 过 函数 的 间接 访问 并 结合 运行 时 编译 来 实现 。 如 果 运 行程 序 中 函数 
的 名 字 是 一 个 含有 该 函数 代码 地 址 的 单元 ， 如 5.6 节 和 5.7 节 讨论 的 过 程 描 述 字 那样 ， 则 至 少 可 
以 在 这 个 函数 还 不 活跃 时 ， 通 过 改变 这 个 间接 单元 中 的 地 址 使 其 指向 该 函数 的 新 代码 ， 从 而 改 
变 该 函数 的 代码 和 位 置 。 在 运行 时 能 够 调用 编译 器 也 使 得 即时 的 (on-the-fly) 重 编译 成 为 可 能 ， 
即 ， 重 新 编译 一 个 正在 运行 的 子 程序 的 能 力 。 之 所 以 这 样 做 可 能 是 因为 已 经 高 速 缓存 了 一 个 已 
编译 好 的 该 子 程序 的 副本 ， 该 子 程序 假定 其 参数 具有 特殊 类 型 ， 但 此 假定 现 已 不 再 起 作用 。 
Deutsch 和 Schifftman 在 基于 Motorola M68000 系 统 的 Smalltalk-80 实 现 [DeuS84] 中 使 用 了 这 种 方 
法 并 得 到 了 良好 的 效果 。 从 那 以 后 ， 这 种 方法 就 被 重复 地 用 于 其 他 多 态 语言 的 实现 中 。 

上 面 的 讨论 只 粗略 地 描画 了 在 设计 一 个 动态 语言 的 有 效 实现 时 所 涉及 的 一 些 问题 ， 关 于 这 
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5.9 小 结 


本 章 我 们 回顾 了 在 运行 时 支持 高 级 语言 共有 的 一 些 概念 所 涉及 到 的 若干 基本 问题 ， 包 括 数 
据 类 型 和 在 运行 时 有 效 地 表示 它们 的 方法 ， 存 储 分 配 和 寻 址 方法 ， 可 见 性 和 作用 域 规则 ， 寄 存 
器 使 用 和 寄存 器 管理 的 基本 方法 ， 单 一 过 程 的 栈 帧 结构 和 运行 时 栈 的 完整 组 织 ， 以 及 支持 参数 
传递 、 过 程 调用 、 入 口 、 出 口 和 返回 所 涉及 的 问题 。 

因为 这 些 概 念 大 多 在 论述 编译 器 的 书 中 已 有 很 好 的 介绍 ， 因 此 我 们 的 目的 只 是 使 读者 回顾 
这 些 问题 和 处 理 它 们 的 适当 方法 ， 并 提供 进一步 阅读 的 参考 文献 。 最 后 一 节 较 为 详细 地 讨论 了 
一 些 更 高 级 的 概念 ， 如 位 置 无 关 代码 和 对 动态 和 多 态 语 言 的 支持 。 

许多 体系 结构 的 应 用 程序 二 进 制 接口 标准 规定 了 上 述 某 些 问 题 必须 怎样 处 理 (如 果 工 程 必 
须 与 这 个 标准 兼容 的 话 ) ， 从 而 更 容易 实现 与 其 他 软件 的 互 操 作 性 。 

本 章 后 几 节 讨论 了 一 些 在 一 般 介绍 性 课程 中 完全 没有 包含 的 内 容 。5.7 节 详细 地 讨论 了 如 
何 利用 位 置 无 关 代 码 和 动态 链接 在 进程 之 间 支 持 代码 共享 。 在 5.8 节 ， 我 们 纵览 了 支持 动态 和 
多 态 语言 的 问题 ， 这 一 方面 的 问题 如 果 全 面 详细 地 讨论 ， 足 可 以 再 写 一 本 书 。 


5.10 进一步 阅读 


本 章 开 始 引用 的 UNIX 系 统 V ABI 文 档 是 一 种 通用 的 规范 [UNIX90a], 它 对 特定 处 理 器 的 增补 
(如 SPARC[UNIX90c]、Motorola 88000[UNIX90b]. Intel 386 体 系 结构 系列 [UNIX93]、Hewlett- 
Packard 的 PA-RISC [HewP91]) 规定 了 栈 的 结构 和 调用 约定 。 

统一 码 标准 字符 集 规范 参见 [Unic90] ， 该 规范 规定 的 16 位 字符 表示 用 于 表示 拉丁 文 、 古 代 
斯 拉夫 语 、 阿 拉 伯 文 、 希 伯 来 文 和 朝鲜 语 的 字母 表 ; 南亚 次 大 陆 等 国语 言 的 字母 表 ; 中 文 汉字 
和 日 文 汉字 字库 。 ' 

首先 介绍 利用 形 实 转换 程序 (thunk) 来 计算 传 名 字 参 数 地 址 的 论文 是 [Inge6H]。 
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Weicker 关 于 传递 给 过 程 的 参数 平均 个 数 的 统计 见 [Weic84] ， 其 中 附带 dhrystone 基 准 测试 程 
序 的 原始 版 本 。 

关于 在 RISC 体 系 结构 中 寄存 器 窗口 减少 了 存 取 指令 的 执行 的 统计 见 [CmeK91]。 ] 

[GinL87] 中 阐述 了 共享 库 或 共享 对 象 的 优点 ， 并 给 出 了 它们 在 SPARC SunOS 操 作 系 统 中 的 
实现 概述 。 该 文 也 描述 了 一 个 程序 在 静态 装载 和 动态 装载 之 间 的 细微 不 同 。 

5.8 节 提 到 的 符号 和 多 态 语 言 的 详细 描述 见 [Stee84](LISP)、[MilT90](ML)、 
[CloM87](Prolog). [CliR91](Scheme). [UngS91](SELF). [Gold84](Smalltalk)., 
[GriP68](SNOBOL) 和 [Gosj96](Java)。 

描述 垃圾 收集 的 阶段 清除 方法 的 论文 是 [Unga87] 和 [Lee89]。 

描述 即时 编译 的 第 一 本 著作 是 Deutsch 和 Schiffman 的 关于 Smalltalk-80 在 基于 Motorola 
M68000 系 统 的 实现 [DeuS87]。 实 现 动态 和 多 态 语言 的 其 他 问题 (如 推测 控制 流 和 数据 流 信息 ) 
在 [Lee91] 以 及 程序 设计 语言 和 函数 程序 设计 年 会 论文 集 的 很 多 论文 中 都 有 讨论 。 


5.11 练习 


5.1 假设 LIR 既 无 取 和 存 一 个 字 节 的 指令 ， 也 无 取 和 存 半 字 的 指令 。(a) 写 一 个 有 效 
的 LIR 子 程序 ， 它 将 一 字符 串 从 寄存 器 r1 指 定 的 字 节 地 址 传送 至 xr2 指 定 的 字 节 
地 址 处 ， 字 符 串 的 长 度 由 寄存 器 r3 给 出 ， 长 度 单位 为 字 节 。(b) 假定 字符 串 采 
用 C 用 null 字 符 ( 即 0x00) 结束 的 约定 ， 重 写 该 子 程序 使 它 更 有 效 地 传送 这 种 字 
EB 
测定 你 所 用 计算 环境 中 的 编译 器 是 如 何 划分 寄存 器 使 用 的 。 这 可 能 只 需 简单 地 阅 
读 手 册 ， 也 可 能 需要 一 系列 的 试验 。 
假设 有 一 个 对 f (i, x,j) 的 调用 ， 参 数 传递 采用 传 值 方 式 ， 其 中 第 一 和 第 三 个 参 
数 是 整 型 值 ， 第 二 个 参数 是 单 精度 浮 点 值 。 执 行 该 调用 的 过 程 是 g () ，g () SEO 
幅 套 在 相同 的 作用 域内 ， 因 此 ， 它 们 具有 相同 的 静态 链 。 假 设 参 数 如 5.6.1 节 所 述 
那样 在 平面 寄存 器 文件 的 寄存 器 中 传递 , 写 出 实现 过 程 调用 和 返回 的 提 手 LIR 代 码 。 
答案 应 当 有 五 部 分 : (1) 调用 代码 ，(2) £() 的 入 口 处 理 ，(3) 使 用 第 一 个 参数 
的 代码 ，(4) £() 的 出 口 处 理 ，(5) 返回 点 的 代码 。 
54 写 出 上 一 练习 的 LIR 代 码 或 Intel 386 体 系 结构 系列 汇编 语言 代码 ， 假 设 参数 如 5.6.2 
节 介 绍 的 那样 在 运行 时 栈 中 传递 。 
5.5 假设 参数 如 5.6.3 节 介绍 的 那样 在 寄存 器 窗口 的 寄存 器 中 传递 ， 写 出 上 一 练习 的 LIR 
代码 。 
ADV 5.6 对 Pascal 或 类 似 的 语言 设计 一 种 语言 扩充 ， 使 其 需要 保存 ( 某 些 ) 栈 帧 ， 假 设 保 
存在 堆 空间 中 ， 并 且 与 原来 的 调用 约定 无 关 。 为 什么 这 种 语言 扩充 可 能 是 有 用 
的 ? 
57 写 出 5.3 节 描述 的 例 程 a11oca () 的 LIR 版 本 。 
58 写 一 个 (简单 的 ) 程序 ， 它 能 够 演示 所 有 不 同 的 参数 传递 规则 ， 即 ， 用 你 所 选择 
的 一 种 语言 编写 一 个 程序 ， 并 通过 使 用 这 五 种 参数 传递 方法 说 明 该 程序 对 每 一 种 
方法 产生 不 同 的 输出 。 
5.9 根据 Java 语 言 的 重 载 和 覆盖 机 制 ， 描 述 (或 用 ICAN 写 出 ) 一 个 在 运行 时 使 用 的 过 
程 ， 它 能 区 别 Java 中 调用 的 是 具有 相同 名 字 的 一 系列 方法 中 的 哪 一 个 方法 。 
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ADV 5.10. 为 具有 传 名字 参 数 的 语言 写 出 过 程 调用 的 提 手 样 全 代码。 具体 地 ， 写 出 调用 f (Qn, 
a[n]) 的 LIR 代 码 ， 其 中 两 个 参数 均 传 名 字 。 
5.11 描述 仅 使 用 GOT 而 不 使 用 PLT 处 理 共享 对 象 的 方法 ， 并 给 出 代码 例子 。 
RSCH 5.12 探讨 通过 将 即时 编译 (5.8 节 有 简单 的 讨论 ) 与 中 间 代 码 的 解释 相 结 合 的 方法 支持 
多 态 语言 涉及 的 有 关 问 题 。 例 如 ， 这 些 问 题 包 括 控制 如 何在 被 解释 的 和 被 编译 的 
135 代码 之 间 进 行 转换 (两 个 方向 的 转换 )， 如 何 告 知 什么 时 候 编译 一 个 子 程序 是 值得 
136 的 ， 以 及 如 何 告知 什么 时 候 应 当 重 新 编译 一 个 子 程序 或 切换 到 解释 该 子 程序 。 





第 6 章 自动 产生 代码 生成 器 


这 一 章 我 们 先 简要 探讨 有 关 从 中 间 语 言 产 生机 器 代码 或 汇编 代码 的 问题 ， 然 后 集中 关注 从 
机 器 描述 自动 产生 代码 生成 器 的 方法 。 

在 生成 代码 时 需要 考虑 如 下 问题 : 

1. 目标 机 的 寄存 器 、 寻 址 方法 和 指令 体系 结构 ; 

2. 必须 遵循 的 软件 约定 ; 

3. 给 变量 绑 定 存 储 单元 或 符号 寄存 器 的 方法 ; 

4. 中 间 语 言 的 结构 和 特征 ; 

5. 与 目标 机 无 直接 对 应 指令 的 中 间 语 言 运算 符 ; 

6. 从 中 间 代 码 转换 到 机 器 代码 的 方法 ; 

7. 是 生成 汇编 语言 代码 还 是 直接 生成 可 链接 或 可 重 定位 的 机 器 代码 。 

这 些 问 题 的 重要 性 ， 以 及 对 这 些 问 题 所 作 的 决策 ， 随 编写 的 编译 器 所 要 支持 的 语言 和 目标 
机 体系 结构 的 种 类 而 变化 , 即 ， 它 支持 的 是 一 种 语言 和 单一 目标 机 、 多 种 语言 和 一 种 体系 结构 、 
一 种 语言 和 多 种 体系 结构 ， 还 是 多 种 语言 和 多 种 体系 结构 。 同 时 还 要 谨慎 地 考虑 到 一 个 已 有 的 
编译 器 在 其 生存 期 间 还 可 能 支持 另外 的 源 语言 和 体系 结构 。 

如 果 我 们 肯定 只 是 为 单一 体系 结构 生成 编译 器 ， 采 用 自动 方法 从 机 器 描述 生成 代码 生成 器 
就 没有 优势 。 在 这 种 情况 下 ， 可 以 像 一 般 编译 著作 所 介绍 的 那样 用 手工 方法 。 另 一 方面 ， 如 果 
我 们 希望 为 若干 体系 结构 生成 编译 器 ， 从 机 器 描述 自动 生成 代码 生成 器 就 特别 值得 。 书 写 和 修 
改 机 器 描述 一 般 要 比 从 头 书写 代码 生成 器 ， 或 将 现 有 的 代码 生成 器 移植 到 新 的 体系 结构 要 容易 。 

有 许多 原因 使 得 我 们 需要 了 解 机 器 的 体系 结构 一 -尽管 有 些 原因 不 是 很 明显 。 目 标 机 是 我 
们 生成 的 代码 必须 对 准 的 目标 ， 如 果 没 有 与 它 保持 一 致 ， 代 码 就 不 能 运行 。 一 个 不 很 明显 的 理 
由 是 ， 有 些 语言 特征 可 能 与 目标 机 体系 结构 不 十 分 匹配 。 例 如 ， 如 果 我 们 必须 在 32 位 字 长 的 机 
器 上 执行 64 位 的 整数 算术 运算 ， 就 需要 写 出 执行 64 位 运算 的 开放 的 或 封 闲 的 《 即 内 人 嵌 的 或 子 程 
序 形式 的 ) 例 程 。 对 于 复数 则 几乎 总 是 出 现 类 似 的 情况 。 如 果 机 器 有 相对 PC 的 条 件 转移 ， 但 
其 偏 移 较 短 而 不 能 覆盖 程序 需要 的 长 度 ， 则 为 了 覆盖 程序 所 希望 的 偏 移 长 度 ， 我 们 就 需要 设计 
出 能 转移 到 足够 远 位 置 的 方法 。 例 如 ， 对 于 一 个 转移 至 较 远 地 址 的 条 件 分 支 ， 如 果 体系 结构 不 
支持 远 距 离 的 条 件 转移 指令 ， 但 对 无 条 件 指令 没有 限制 ， 则 实现 它 的 一 种 可 能 的 方法 是 用 一 个 
相反 的 条 件 转移 绕 过 一 个 无 条 件 转移 的 组 合 来 替代 它 。 

软件 约定 也 同样 重要 。 它 们 的 设计 必须 支持 源 语言 的 特征 ， 并 服从 已 公布 的 标准 ， 如 应 用 
程序 二 进 制 接 口 (ABI) 定义 (参见 第 5 章 的 开始 )， 否 则 ， 所 生成 的 代码 将 不 能 满足 要 求 。 详 
细 理 解 软 件 约定 以 及 如 何 实现 有 效 满足 它们 的 代码 ， 是 生成 高 效 代码 的 基础 。 

我 们 采用 的 中 间 语 言 在 本 质 上 对 生成 正确 的 代码 没有 决定 性 的 影响 ， 但 它 却 是 影响 我 们 选 
择 代码 生成 方法 的 主要 因素 。 针 对 DAG、 树 、 四 元 式 、 三 元 式 、 前 绎 波兰 代码 和 包括 若干 不 
同 的 控制 结构 表示 在 内 的 其 他 形式 ， 人 们 已 经 设计 了 不 同 的 代码 生成 方法 。 

所 生成 的 目标 代码 是 采用 汇编 诸 言 形式 还 是 可 重 定位 的 二 进 制 形式 ， 主 要 与 方便 性 和 编译 
时 性 能 的 重要 性 有 关 。 生 成 汇编 代码 要 求 我 们 在 编译 过 程 中 包含 汇编 阶段 ， 从 而 需要 额外 的 时 
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间 (用 于 运行 汇编 器 和 读 写 汇 编 代 码 )， 但 它 使 代码 生成 器 的 输出 易于 阅读 和 检查 ， 并 且 使 得 
我 们 可 以 将 诸如 生成 转移 到 代码 中 未 知 位 置 的 问题 留 给 汇编 器 。 我 们 可 以 在 编译 时 只 生成 符号 
标号 ， 而 将 此 标号 在 代码 中 的 位 置 留 给 汇编 器 在 以 后 确定 。 另 一 方面 ， 如 果 直 接生 成 可 链接 的 
代码 ， 我 们 也 仍然 需要 一 种 途径 来 输出 符号 形式 的 代码 以 便 调试 ， 尽 管 这 种 输出 形式 不 必 是 完 
整 的 汇编 语言 ， 并 且 可 以 由 反 汇 编 器 从 目标 代码 生成 ， 就 像 IBM 的 POWER 和 PowerPC 编 译 器 
所 做 的 那样 (参见 21.2.2 节 )。 


6.1 简介 代码 生成 器 的 自动 生成 


尽管 手工 书写 的 代码 生成 器 效率 高 ， 而 且 实 现 起 来 也 较 快 ， 但 其 缺点 是 它 毕 竟 是 手工 实现 
的 ， 因 此 比 自动 生成 的 代码 生成 器 要 难于 修改 和 移植 。 目 前 已 开发 出 来 了 若干 种 从 机 器 描述 构 
造 代码 生成 器 的 方法 ， 我 们 这 里 介绍 其 中 的 三 种 ， 但 详细 程度 有 所 不 同 。 这 三 种 方法 都 从 低级 
中 间 代 码 开始 ， 这 种 低级 中 间 代 码 已 展开 了 地 址 计算 。 

在 所 有 三 种 方法 中 ， 代 码 生 成 器 都 对 树 进行 模式 匹配 ， 尽 管 在 前 两 种 方法 中 树 表现 得 不 明 
显 一 一 这 两 种 方法 都 是 针对 前 缀 波兰 中 间 表 示 的 。 如 4.9.4 节 所 解释 的 ， 前 缀 波兰 表示 是 前 序 记 
历 树 的 结果 ， 因 此 树 简单 地 隐藏 在 线性 表示 中 。 


6.2 语法 制导 技术 


我 们 将 介绍 的 第 一 种 从 机 器 描述 产生 代码 生成 器 的 方法 是 著名 的 Graham-Glanville 方 法 ， 
该 方法 以 它 的 发 明 人 命名 。 它 用 一 种 与 上 下 文 无 关 文 法 类 似 的 规则 来 表示 机 器 的 操作 ， 同 时 畏 
以 对 应 的 机 器 指令 模板 。 当 一 个 规则 与 前 缀 波兰 中 间 代 码 流 〈 它 是 树 序列 的 前 序 遍 历 表示 ) 中 
的 一 个 子 串 相 匹配 ， 并 且 满 足 与 它 相连 的 语义 约束 时 ， 则 用 规则 左 端 符号 的 实例 替换 所 匹配 的 
部 分 ， 同 时 流出 对 应 指令 模板 的 实例 。 

r.2 æ» r.i 


r.2 = k.1 
r.2 = mov r.2 r.i 


or r.1,0,r.2 
or O,k.1,r.2 
or r.1,0,r.2 


add r.1,r.2,r.3 
add r.1,k.2,r.3 
add r.1,k.2,r.3 


sub r.1,r.2,r.3 
sub r.1,k.2,r.3 


[r.i*r.2] r.3e9 T+r.1 7.2 


r.3 «€ 
r.3 © [r.i*k.2) r.3 = f * r.1 k.2 
r.2 «€ [r.11 | 


[r.2+r.3] <- r.1 
[r.2+k.1] «€- r.i 
[r2] € r.1 


.a) . b) 
图 6-1 a)LIRJ&4-, b) Graham-Glanville 机 器 描述 规则 ，c) 对 应 的 SPARC 指 令 模板 
Graham-Glanville 代 码 生成 器 由 三 部 分 组 成 ， 即 中 间 语 言 转换 、 模 式 匹配 器 和 代码 生成 。 


第 一 部 分 根据 需要 将 编译 前 端的 输出 转换 成 适合 于 模式 匹配 的 形式 。 例 如 ， 不 能 用 机 器 操作 表 
示 的 源 语言 运算 符 被 转换 成 子 程序 调用 ， 而 调用 则 被 转换 成 对 状态 进行 显 式 改变 的 指令 序列 。 
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第 二 部 分 进行 实际 的 模式 匹配 ， 确 定 用 什么 样 的 归 约 序列 来 归 约 中 间 代 码 的 输入 字符 种 。 第 三 
部 分 在 执行 上 与 第 二 部 分 是 交织 在 一 起 的 , 它 实际 地 生成 合适 的 指令 序列 , 并 进行 寄存 器 分 配 。 
本 节余 下 部 分 将 集中 介绍 模式 匹配 阶段 和 指令 生成 阶段 ， 但 对 后 者 的 关注 程度 要 稍 少 一 点 。 

考虑 图 6-ta 中 的 LIR 指 令 组 ， 其 中 ， 每 一 个 参数 的 位 置 受 一 个 整数 的 限定 ， 这 个 整数 用 于 
使 中 间 代 码 子 串 与 代码 生成 规则 和 指令 模板 相 匹配 。 图 6-1b 和 c 展 示 了 SPARC 指 令 模板 和 对 应 
的 规则 。 在 此 图 中 ,“z.m” 表 示 一 个 寄存 器 ,“k.n ”表示 一 个 常数 ,“e ”代表 空 字符 串 。 数 字 
既 用 于 使 代码 的 流出 与 匹配 相 一 致 ， 也 用 于 表示 规则 中 的 语法 约束 一 一 例如 ， 字 符 串 中 的 第 一 
和 第 二 操作 数 必须 是 相同 的 寄存 器 才 算 是 一 个 成 功 的 匹配 ， 则 应 当 用 相同 的 整数 来 限定 这 两 个 
操作 数 。 

在 前 组 波兰 代码 中 ， 我 们 用 “+ ”表示 取 操 作 ， “~” 表示 存 操作 ，mov 表 示 寄 存 器 到 寄 
存 器 的 传送 。 

作为 一 个 例子 ， 假 设 我 们 有 图 6-2 所 示 的 LIR 代 码 。 设 r3 和 r4 在 这 段 代码 结 尾 时 是 已 死去 
的 ， 于 是 如 图 6-3 所 示 ， 我 们 没有 必要 在 树 表示 中 显 式 地 包含 它们 ， 





但 却 需 要 保留 [1 和 r2。 所 得 到 的 前 组 波兰 形式 为 : | i Deu] 
tr2 rB + + r8 8 « r2 ! rl+r84+ 4+ r84-r11 tears] c 
r8* er 
”图 6-4 给 出 了 对 它 进行 分 析 过 程 中 发 生 的 模式 匹配 ， 以 及 为 它 生 成 r4<ri-1 
的 SPARC 指 令 。 下 划 线 指出 被 匹配 的 字符 串 部 分 ， 它 底下 的 符号 [r8+4] < r4 
指出 由 谁 荐 代 所 匹配 的 子 字符 串 ; 对 于 取 操 作 和 算术 运算 ， 结 果 ”图 6-2 用 于 Graham-Glanville 
寄存 器 由 代码 生成 期 间 所 使 用 的 寄存 器 分 配器 来 确定 。 代码 生成 的 LIR 指 令 序列 
T E ~ < 
ÁN ÁN LN 


图 6-3 图 6-2 中 LIR 代 码 序列 对 应 的 树 
[r8,0],r2 


f r2r8 € *r88 *r21r1*r84 €.*x84- r11 
€ 
*- *t 88 * 21 rl * r8 4 «- * rB8B4- r11 
ri 
*- * r8 8 * r2 r1 e * rB84- r11 


[r8,4],ri 


r2,ri,r3 
r3 


* *t r84r3« *r84-r11 
€ 
*- * r84- xii 


r3, [r8,4] 


ri,1,r4 


r4,[r8,4] 





图 6-4 a) 分析 过 程 ，b) 为 图 6-3 的 树 流出 的 指令 
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6.2.1 代码 生成 器 


这 个 代码 生成 器 本 质 上 是 一 个 SLR (1) 分 析 器 ， 它 执行 通常 的 移 进 和 归 约 动作 ， 但 流出 
的 是 机 器 指令 而 不 是 语法 分 析 树 或 中 间 人 代码。 在 本 质 上 ， 这 个 分 析 器 识别 这 样 一 种 语言 ， 它 的 
产生 式 是 非 终结 符 N 可 用 “e ”替代 的 机 器 描述 规则 以 及 一 个 额外 的 产生 式 S=>N 。 不 过 ， 它 与 
SLR 分 析 有 几 点 重要 的 不 同 。 
“e ”人 允许 出 现在 规则 的 左边 ， 并 将 它 看 作 是 非 终结 符 。 与 语法 分 析 中 不 同 的 是 ， 机 器 描 
述 的 文法 几乎 总 是 有 歧义 的 。 歧 义 性 通过 两 种 方法 来 解决 。 一 种 方法 是 归 约 动作 上 的 贪 禁 移 进 
动作 ( 即 算法 是 贪 禁 的 或 贪 食 的 )， 并 且 较 长 的 归 约 优先 于 较 短 的 归 约 ， 这 样 使 得 匹配 的 是 可 
能 的 最 长 字符 串 。 另 一 种 方法 是 在 形成 语法 分 析 表 时 按 某 种 顺序 排列 这 些 规则 ， 使 得 代码 生成 
器 在 代码 生成 进行 归 约 时 ， 取 的 是 第 一 个 相 匹配 的 规则 。 这 样 ， 在 指定 这 些 规则 时 ， 人 们 可 以 
通过 用 一 种 特定 的 方法 对 规则 排序 ， 或 者 通过 在 代码 生成 器 中 建立 一 种 代价 评估 ， 从 而 使 得 代 
码 生成 器 偏向 某 些 特定 的 选择 。 
这 个 代码 生成 器 算法 用 到 了 7 种 全 局 数据 类 型 、 一 个 栈 和 两 个 由 代码 生成 器 的 产 成 器 构造 
出 来 的 函数 ， 它 们 是 : 
Vocab = Terminal U Nonterminal 
ExtVocab = Vocab u ('e','$') 
VocabSeq = sequence of Vocab 
ActionType = enum (Shift,Reduce,Accept,Error) 
|| type of machine grammar rules 
Rule = record (1t: Nonterminal u {'e'}, 
rt: VocabSeq} 
|| type of parsing automaton items that make up its states 
Item = record (1t: Nonterminal u {'e'}, 
rt: VocabSeq, 
pos: integer} 
ActionRedn = ActionType x set of Item 
Stack: sequence of (integer U ExtVocab) 


Action: State x ExtVocab 一 > ActionRedn 
Next: State x ExtVocab —» State 


注意 ， 机 器 文法 中 的 终结 符 集合 和 非 终结 符 集合 几乎 总 是 有 非 空 的 交集 。 

这 个 代码 生成 器 以 前 级 波兰 中 间 代 码 串 Intercode 作 为 输入 ，Intercode 必 须 是 由 
Terminal 的 成 员 组 成 的 序列 。 类 型 ActionRedn 的 元 素 是 一 个 偶 对 <a，r>， 其 中 a 是 
ActionType 的 成 员 ,，r 属 于 Item 组 成 的 集合 ， 并 且 它 们 满足 r+ 当 且 仅 当 a=Reduce。 其 算 
法 如 图 6-5 所 示 。Get_Symbol () 返回 它 的 参数 的 第 一 个 符号 ，Discard_Symbol ( ) 删除 那个 
符号 。 

函数 Emit_Instrs (reduction, left, right) 从 reduction 给 出 的 规则 中 选择 一 个 规则 ， 通 过 
使 用 栈 中 的 信息 将 对 应 的 模板 实例 化 而 流出 一 至 多 条 指令 ， 设 置 laf 为 所 用 规则 的 左 端 符 号 实 
例 化 后 的 符号 ， 并 设置 right 为 该 规则 右 端 的 长 度 。 要 理解 为 什么 Emit_Instrs () 需 要 使 用 栈 
中 的 信息 来 决定 流出 什么 样 的 指令 序列 ， 考 虑 图 6-1 中 的 第 二 条 规则 。 只 要 大 多 数 SPARC 指 令 
中 的 13 位 无 符号 直接 数 域 能 容纳 得 下 由 k .1 匹配 的 常数 ， 使 用 这 条 规则 就 没有 问题 。 如 果 这 个 
常数 容纳 不 下 ，Emit_Instrs () 将 需要 生成 一 条 sethi 和 一 条 or 指令 来 在 寄存 器 中 构造 该 
常数 ， 其 后 再 跟随 一 条 在 图 6-1 第 一 条 规则 中 给 出 的 相应 的 三 寄存 器 指令 。 我 们 可 以 通过 提供 
额外 一 条 规则 和 指令 模板 来 将 这 种 选择 引入 到 图 6-1 的 规则 中 : 
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procedure Genérate(InterCode) returns boolean 
Intercode: in VocabSeq 
begin l 
state := 0, right: integer 
action: ActionType 
reduction: set of Item 
left, lookahead: ExtVocab 
Stack := [0} 
lookahead := Lookahead(InterCode) 
while true do . 
action := Áction(state,lookahead)l1 
reduction := Action(state, lookahead) 42 
case action of 
Shift: Stack @= [lookahead] 
state := Next (state, lookahead) 
Stack @= [state] 
Discard, Symbol(InterCode) 
if InterCode = [] then 
lookahead := '$' 
else 
lookahead := Get Symbol(InterCode) 
fi 
Reduce: Enit_Instrs (reduction, left right) 
for i := 1 to 2 * right do 
Stack es -1 
od 
state := Stacki-1 
if left * 'c' then 
Stack @= [left] 
state := Next(state,left) 
Stack e- [state] 





fi 
Accept: return true 
Error: return false 
esac 
od 
end || Generate 
图 6-5 代码 生成 算法 
(empty) r.22k.1 sethi %hi(k.1), r.2 
or $lo(k.1), r.2, r.2: 


但 即使 这 样 ， 我 们 也 仍然 需要 检查 常量 操作 数 的 长 度 ， 否 则 ， 这 条 规则 可 能 会 在 需要 使 用 时 而 
未 被 使 用 一 一 它 匹 配 的 是 一 个 较 短 的 子 串 ， 这 个 子 串 比 任何 含 一 个 运算 符 和 一 个 常量 操作 数 的 规 
则 所 匹配 的 子 串 都 要 短 ， 所 以 在 寻找 一 个 常量 操作 数 时 ， 我 们 应 总 是 继续 移 进而 不 是 进行 归 约 。 

Emit Instrs () 中 隐藏 的 另 一 个 问题 是 寄存 器 分 配 。 寄 存 器 分 配 可 以 用 3.6 节 描述 的 方法 
来 处 理 ， 或 者 更 好 的 做 法 是 ， 给 标量 变量 和 临时 变量 指定 其 个 数 无 限制 的 符号 寄存 器 ， 最 终 由 
寄存 器 分 配器 (016.345) 给 这 些 符号 寄存 器 指定 机 器 寄存 器 或 存储 单元 。 


6.22 代码 生成 器 的 产生 器 
如 图 6-6 和 图 6-7 所 示 ， 代 码 生 成 器 的 产生 器 基于 建立 SLR 语 法 分 析 表 时 所 使 用 的 项 目 集合 结 


Kj (其 中 项 目 (item) 是 文法 中 其 右边 带 有 “.”) 的 产生 式 ， 但 有 若干 修改 。 项 目 用 前 面 声明 的 
全 局 类 型 Item 表示 ， 一 个 项 目 [人 站. r mi 六] 对 应 于 记录 <1t:l, rt:r o... ry 
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pos:i». XflfáGen Tables () 在 MGrammar 中 的 规则 集合 是 一 致 的 〈 见 图 6-7)， 并 且 所 有 句法 
阻 滞 ( 见 6.2.4 节 ) 都 可 以 修复 时 返回 true; 否则 返回 false。 图 6-6 中 的 全 局 变量 全 局 于 本 节 所 
有 的 例 程 。 数 组 Itemset [] 以 状态 编号 作为 索引 ， 用 于 容纳 项 目 被 构造 时 的 项 目 集 。Vocab 是 规 
则 中 出 现 的 终结 符 和 非 终结 符 词汇 表 。 像 语法 分 析 器 的 产生 器 一 样 ， 代 码 生 成 器 的 产生 器 通过 构 
造 项 目 集 并 将 它们 每 一 个 与 一 个 状态 相关 联 来 推进 处 理 过 程 。 函 数 Successors O 计算 每 一 个 状 
态 的 后 继 对 应 的 项 目 集 ， 并 且 填 充 每 一 个 转换 的 Action () 和 Next O 之 值 。 

MaxStateNo: integer 


MGrammar: set of Rule 
ItemSet: array [--] of set of Item 

























procedure Gen Tables( ) returns boolean 
begin 
StateNo :- 0: integer 
unif: boolean 
item: Item 
rule: Rule 
|| remove cycles of nonterminals from machine grammar 
Elim Chain, Loops( ) 
MaxStateNo := 0 
|| generate action/next tables 
ItemSet [0] := Closure({<1t:rule.1t,rt:rule.rt,pos:0> 
where rule € MGrammar & rule.lt = 'e'}) 
while StateNo s MaxStateNo do 
Successors (StateNo) 
|| process fails if some state is not uniform 
if !Uniform(StateNo) then 
return false 
fi 
StateNo += 1 
od 
|| process fails if some syntactic blockage is not repairable 
unif := Fix Synt Blocks( ) 
Action(0,'$') := <Accept,@> 
return unif 
end |! Gen Tables 













procedure Successors(s) 
8: in integer 
begin 
Nextltems: set of Item 
v: Vocab 
x: ExtVocab 
j: integer 
item, itemi: Item 
for each v € Vocab do 
|| if there is an item [x => a*vpf] in ItemSet[s], 
|| set action to shift and compute next state 
if Jitem € ItemSet[s] (v = item.rti(item.pos*1)) then 
Action(s,v) := (Shift,9) 
NextItems := Closure(Advance({itemi € Itemset [s] 
where v -itemi.rti(itemi.pos*1)))) 
if 3j © integer (ItemSet[j] = NextItems) then 
Next(s,v) := j 
else 


图 6-6 构造 SLR (1) 语法 分 析 表 
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MaxStateNo += 1 
ItemSet[MaxStateNo] := NextItems 
Next(s,v) := MaxStateNo f 
fi 
|| if there is an item [x = «æ'] in ItemSet[s], 
I| set action to reduce and compute the reduction 
elif Jitem € ItemSet([s] (item.pos = litem.rt|*1) then 
Reduction := {item € ItemSet[s] where item.pos = litem.rt|*1 
& (item.1t = 'c' V (v € Follow(item.lt) 
& Yitemi € ItemSet[s] (itemi = item V litemi.rt| s litem.rt| 
V itemi.pos < jitem.rti V v f Follow(itemi.1t))))) 
Action(s,v) := <Reduce,Reduction> 
|| otherwise set action to error 
else 
Action(s,v) := <Error,#> 
fi 
od 
11 Successors 





图 6-6 (fX) 


procedure Uniform(s) returns boolean 
8: in integer 
begin 
u, v, x: Vocab 
item: Item 
for each item € ItemSet{s] (item.pos s |item.rt|) do 
if item.pos * 0 then 
x := Parent(item.rtlitem.pos,item.rt) 
if Left Child(item.rtlitem.pos,item.rt) then 
for each u € Vocab do 
if Action(s,u) = Error,» 
& (Left First(x,u) V Right First(x,u)) then 
return false 






























fi 
od 
fi 
fi 
od 
return true 
end {| Uniform 





procedure Closure(S) returns set of Item 
S: in set of Item 
begin 
01dS: set of Item 
item, s: Item 
repeat 
|| compute the set of items [x = av] 
|| such that [x = a*vf] is in S 
Olds := S | 
S u= {item € Item where 3s € S.(s.pos < |s.rtl 
& s.(s.pos*1) € Nonterminal 
& item.lt = s.(s.posti) & item.pos 
until S = 01dS 
return S$ 


图 6-7 构造 SLR (1) 语法 分 析 表 时 使 用 的 函数 Uniform() closure () #ilAdvance () 


0)} 





-4 P 


end |! Closure 


procedure Advance(S) returns set of Item 
$: in set of Item 

begin 
S, item: Item 


|| advance the dot one position in each item 
|! that does not have the dot at its right end 
return {item € Item where 3s € S (item.lt = s.1t 
& s.pos < |s.rt| & item.rt = s.rt 
& item.pos = s.pos*1)) 
end {| Advance 





图 6-7 (4) 

我 们 较 后 再 描述 函数 Elim_chain_Loops () 和 Fix_Synt_BLock()。 国 数 Unifornm() 
确定 规则 集合 是 否 满足 所 谓 一 致 性 的 特点 。 一 致 性 的 定义 如 下 : 一 个 规则 集合 是 一 致 的 
(uniform)， 当 且 仅 当 二 元 运算 符 的 任意 左 操 作 数 ， 在 含有 那个 二 元 运算 符 的 任意 前 缀 波兰 字 
符 串 中 ， 都 是 那个 运算 符 的 合法 左 操作 数 ,， 并且 ， 对 于 右 操作 数 和 一 元 运算 符 的 操作 数 也 类 似 。 
为 了 使 规则 集合 适合 于 Graham-Glanville 代 码 生 成 ， 规 则 集合 必须 是 一 致 的 。 例 程 Uniform () 
使 用 了 下 面 定 义 的 两 个 函数 ， 即 Parent () 和 Left_child()， 以 及 由 后 面 段 落 所 讨论 的 那些 
关系 ， 即 Left_First (x, u)fliRight First(x, u), BpGESCEUPAA RR 如 果 分 别 有 x 
Left First u 和 x Right First 4， 这 两 个 函数 返回 true; 否则 返回 false。 

函数 

Parent : Vocab x Prefix > Vocab 
返回 第 一 个 参数 在 由 第 二 个 参数 给 出 的 树 中 的 父亲 ， 其 中 Prefix 是 由 规则 生成 的 语句 的 前 缓 集 
&. BE 

Left Child : Vocab x Prefix > boolean 


返回 一 个 布尔 值 ， 它 指出 在 由 第 二 个 参数 给 出 的 树 中 ， 第 一 个 参数 是 否 是 其 父亲 的 最 左边 的 儿子 。 
这 个 算法 中 和 这 些 函 数 定义 中 用 到 了 如 下 一 些 关 系 〈 其 中 BinOp 和 UVzOp 分 别 是 二 元 运算 符 
和 一 元 运算 符 符号 集合 ， 而 且 除 < 之 外 的 小 写 希 腊 字 母 均 代 表 符 号 字符 串 ): 
Left c (BinOp U UnOp) x Vocab 
x Left y 当 且 仅 当 存在 一 个 规则 "一 0x98， 其 中 7 可 以 是 < 
Right c BinOp x Vocab 
x Right y 当 且 仅 当 对 于 某 个 Bx* e ， 存 在 一 个 规则 一 cxpy7y， 其 中 r 可 以 是 e 。 
First ¢ Vocab x Vocab 
x First y 当 且 仅 当 存在 一 个 推导 x Aya, Ahan AE eE. 
Last c; Vocab x Vocab 
x Last y 当 且 仅 当 存在 一 个 推导 x S ay, Rane. 
EpsLast c Vocab 
EpsLast = (xl 存在 一 个 规则 e =>0y Hy Last x }。 
RootOps c BinOp U UnOp 
RootOps = (xl 存在 一 个 规则 e 一 zc 日 x6 BinOp U UnOp }. 


函数 Follow : Vocab 一 Vocab 可 以 用 下 面 的 辅助 函数 Follow1: Vocab ^ Vocab, UREE 
EpsLast 和 RootOps 来 定义 : 
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Follow1(u) = (v | 3 a rule r = axyß such that x Last u and y First v) 145 
_ | Followi(u) U RootOps if u e EpsLast 147 
Follow(u) = Follow1() otherwise 


作为 Graham-Glanville 代 码 生 成 器 的 一 个 例子 ， 考 虑 图 6-8 中 非常 简单 的 机 器 描述 规则 。 在 
这 个 例子 中 ， 我 们 用 传统 的 方式 书写 项 目 ， 即 将 <lt:x, rt:Qyp, pos:1a1> 写 为 [x 一 0 yBl. 
我 们 首先 在 图 6-9 中 给 出 Left、Righit 等 关系 以 及 一 些 集合 和 函数 ， 然 后 对 给 定 的 文法 追 滴 
Gen Tables O 若干 步 。 一 开始 ， 我 们 有 StateNo =MaxStateNo=0 并 且 ItemSet [0] = 
([€2- =-rr])。 接 着 ， 我 们 调用 国 数 Successors (0), 该 函数 设置 v=“e ,计算 
Action (0, ‘<-’) =<Shitt，1>， 并 设置 集合 NextItenms 为 

Closure (Advance (([€ 2: — r r]})) 
它 计 算出 来 的 值 为 


NextItems 一 {[E 一 一 ' 工 T]， [r2-:r), (ro: rr], 
[r2-:« rk], irs: tr]} 


现在 MaxStateNo 增 加 到 1，ItemSet [1] 被 设 为 刚刚 由 NextItems 计 算出 来 的 值 ， 并 且 
Next (0, ' —') 被 设置 为 1。 


r.2 =» r.i 


r.3 æ» + r.1 r.2 





r.3 = *r.1k.2 add r.1,k.2,r.3 
r.2- fr.1 ld [r.i],r.2 
€ - «€ r2r.l | st r.i,[r.2] 
b) c) 
图 6-8 a) LIR 指 令 ，b) Graham-Glanville 机 器 描述 规则 ，c) 对 应 的 SPARC 指 令 模 板 
'+' Left 'r' 't' Left 'r' '<' Left 'r' 
"v Right ‘x! '+' Right ck '<' Right 'r' 
te! First tx! 'r! First Cet 'r' First 't' 
'r' Last 'r' 'r' Last 'k' 


EpsLast = {'r','k'} RootOps = {'<'} 


Follow1(C'e') 
Follow1('r') 
Follow1('k') 


{'r','t+','t','<'} 
{'r',t+','tt,'e'} 
{'r' [+ 'ti,te'} 
Follow1(**') = {ir','+','T','©'} 
Follow1('t') = Ø 
Follow1('<') = 9 


Follow('e') 
Follow('r') 


{ir','t','ti,'e'} 
(rye 


| n» u Ww Ww 


Follow('k') = {'r','+','T','e'} 
Follow('+') = {'r','+','1','e'} 
Follow('t') = ø 


Follow('<') = $ 
图 6-9 图 6-8 中 的 机 器 描述 文法 例子 的 关系 、 集 合 和 函数 





FOF 


随后 ， 我 们 计算 Uniform (1)。ItemSet[1l] 中 所 有 的 项 目 都 以 点 打头 ， 因 此 
Uniform() 是 ture。 在 后 面 的 步骤 中 ，Uniform() 将 总 是 返回 true。 

接 下 来 ，StateNo 被 设置 为 1， 我 们 调用 Successors (1)。 它 首先 设置 v= “r’, 计算 
Action (1, 'r') =<Shift，§ >， 然 后 设置 集合 NextItems 为 


Closure (Advance (([€2-— -r r], {r= :rl1})) 


它 计 算出 来 的 值 为 
NextItems=({([€=er:rli, [r2r-], (r=-rl, 
[r2-4 rr], [r2- «r k], [r>- tr]} 
现在 MaxStateNo 增 加 到 2，ItemSet [21] 被 设 为 刚刚 为 NextItems 计 算 的 值 ， 并 且 Next 
(1, 'r') 被 设置 为 2。 
接 下 来 ，Successors (1) 设置 v= ‘+’, it}MAaction(1, ‘+’ )2«Shift, 9>, ZR 
后 设置 集合 NextItems 为 


Closure (Advance ({[r>-+ r r], [r2 - « r k]))) 
它 计 算出 来 的 值 为 
NextItems={[r=>+:r r}, [r—-*':r k], [r= 'r], 
[r2-« r r], [r 2: » r k}, [r2- tr]? 


现在 MaxStateNo 增 加 到 3，ItemSet [31] 被 设 为 刚刚 为 NextItems 计 算 的 值 ， 并 且 Next 
(1, +) 被 设置 为 3。 

此 代码 生成 器 的 产生 器 继续 产生 shift 动 作 ， 直 到 它 到 达 MaxSstateNo=9。 此 时 ， 
ItemSet[9]Æ{[e>+ r k-], [(r2k-]), BHR -HPReducemf—, Hi, 


«Reduce, ([€2« rk: ]}> 


所 生成 的 Action/Next 表 如 图 6-10 所 示 。 图 6-11 给 出 的 是 分 析 自 动机 的 图 形 表示 。 在 表 和 加 


形 两 种 表示 中 都 只 给 出 了 非 错误 的 转换 。 表 中 含有 数字 的 登记 项 对 应 于 移 进 动作 ， 例 如 ， 在 状 


态 3 的 展望 符号 是 “rz ” 时， 我们 移 进 到 状态 6。 含 归 约 动作 的 登记 项 给 出 的 是 用 来 归 约 的 项 目 
集 ， 例 如 ， 在 状态 5 的 展望 符号 是 “~ '、“1 、“+” R 上” 时， 用 项 目 集 {[e 之 一 rr: 
归 约 。 在 图 形 表示 中 ， 用 从 一 个 状态 到 另 一 个 状态 的 箭头 ， 且 其 上 标 有 展望 符号 来 表示 移 进 动 
作 。 例 如 ， 从 状态 3 到 状态 6 且 带 有 标志 “r ”的 箭头 对 应 于 前 面 所 述 表 形式 的 转换 。 


Mme Rc 





















œ fal | | | [see 
[2 d [4]|3]|2. 
a ù Jal: is] 





OOo |o] 
| | 
4|3|656| | | 
ERE CIIM pp 
5 | | 

fe | CT 8 
moo | 01:3 | - 
[$ | t&-*:r-D | | 
B ue» 


图 6-10 图 6-8 中 给 出 的 机 器 描述 文法 的 Action/Next 表 












自动 产生 代码 生成 器 109 





Reduce 
(lez err -]} 





Reduce 
{ir » fr: (8) 
r,t 
r,t, T, 
T,< 
Reduce Reduce 


{{r » + rr •]} {ir » +rk +]} 
图 6-11 由 图 6-8 机 器 描述 文法 生成 的 代码 生成 自动 机 

下 面 ， 我 们 用 前 面 给 出 的 Action/Next 表 对 如 下 中 间 代 码 流 

- + rl 2 + 1 r3 3 $ . . 
追溯 代码 生成 器 的 动作 。 过 程 是 首先 设置 开始 状态 为 0， 将 0 压 入 栈 顶 ， 然 后 取 符 号 ““ ”作为 
lookahead 的 值 。 在 状态 0 时 对 “~ ”的 动作 是 移 进 ， 于 是 该 符号 被 压 人 到 栈 顶 ， 从 
Action/Next 表 中 取出 下 一 状态 并 压 入 栈 顶 ， 从 输入 字符 串 中 忽略 这 个 展望 符号 ， 下 一 个 符号 成 
为 展望 符号 ， 这 个 符号 即 “+'。 现 在 ， 栈 的 内 容 为 : 

1 '<' 0 | 

在 状态 1 下 “+” 的 动作 是 移 进 并 且 下 一 状态 是 3。 其 结果 导致 栈 变 为 : 

3 € 1 'e' 0 

在 状态 3 下 “r1” 的 动作 是 移 进 并 进入 状态 6， 因 此 ， 栈 变 为 : 

6 ri 3 '+' 1 '—' 0 

接 下 来 的 移 进 动作 使 分 析 器 进入 状态 9， 此 时 展望 符号 为 “+  ， 栈 为 : 

926r 3 1 'e 0 | 150 

在 状态 9 处 ， 合 适 的 动作 是 用 项 目 集 { [r > + rk: ]} 进 行 归 约 ， 于 是 Emit_Instrs() 
被 调用 。 它 为 加 法 运算 结果 分 配 一 个 寄存 器 ， 即 2 ， 并 输出 指令 


add r1,°2, r2 


left 的 值 被 设 为 r2，right 的 值 被 设 为 3， 于 是 ， 从 栈 中 弹出 6 项 并 忽略 它们 ， 并 且 r2 和 下 一 
状态 (2) 被 压 人 栈 中 ， 结 果 为 : 


2 :2 1 '« 0] 
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我 们 将 后 面 的 处 理 留 给 读者 ， 并 要 求 核 实 由 它 生成 的 就 是 下 面 的 指令 序列 ， 其 中 假定 寄存 器 
r4 和 r5 的 分 配 也 如 下 所 示 : 
add ri,2,r2 
ld [r3],r4 
add r4,3,r5 
151 st r2, [r5] 


6.2.3 删除 链 循 环 


在 文法 分 析 中 很 少 有 链 循环 的 情况 ， 链 循环 是 由 一 组 非 终结 符 组 成 的 集合 ， 其 中 每 一 个 非 
终结 符 可 以 从 另 一 个 非 终结 符 导出 。 但 是 ， 这 种 链 循环 在 机 器 描述 中 却 特别 常见 。 作 为 链 循 环 
作用 的 一 个 例子 ， 考 虑 由 下 面 规则 组 成 的 简单 文法 (尽管 该 文法 生成 的 语言 是 空 集 ， 但 这 没有 
关系 一 一 增加 生成 终结 符 的 产生 式 不 影响 链 循环 的 表示 ): 

eL 

s-t 

t-r 

es st 

这 个 文法 的 分 析 自 动机 如 图 6-12 所 示 。 现 在 ， 如 果 我 们 以 中 间 代 码 串 一 rl + r2 作 为 输入 ， 
那么 ， 在 处 理 c- *1 之 后 ， 自 动机 处 在 状态 1， 栈 为 


1 'e' 0 
并 且 展 望 符号 是 “1 ` 。 从 这 个 状态 ， 该 代码 生成 器 流出 一 条 寄存 器 到 寄存 器 的 传送 指令 ， 同 
时 返回 到 相同 的 状态 ， 并 且 栈 和 展望 符号 都 维持 不 变 一 一 即 它 是 阻 灌 不 前 的 。 





Reduce 


{[t =» r :1) 


Reduce 





{[s =» t :13 
r,s,t, 
,€- 
Reduce Reduce Reduce 
{ir » tr: {ir = s *]} ([e - < s t -]} 


图 6-12 含 链 循环 的 文法 例子 的 分 析 自 动机 


链 循 环 的 删除 可 作为 施加 于 机 器 描述 文法 的 预 处 理 步骤 ， 或 作为 构造 Action/Next 表 的 预 处 

理 步骤 来 进行 。 图 6-13 中 的 代码 提供 了 一 种 进行 这 种 文法 预 处 理 的 方法 。 过 程 

Elim Chain, Loops () 在 文法 MGrammar 中 寻找 那些 有 单个 非 终 结 符 同时 在 左边 和 右边 出 现 
的 产生 式 <1t:!，rt:r>。 对 于 每 一 个 这 样 的 产生 式 ， 它 使 用 Close (<1lt:l, rt:r>, C, R) 
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判断 由 r 导 出 的 非 终 结 符 集合 是 否 构 成 一 个 循环 。 如果 是 ，Close() 返 回 循环 中 的 非 终 结 符 集 
合 于 R 中 ， 返 回 构成 这 个 循环 的 产生 式 集合 于 C 中 。C1lose() 分 别 用 图 6-14 定 义 的 过 程 
Reach ( ) 确定 从 它 的 参数 可 到 达 的 非 终 结 符 集合 ， 用 Prune ( ) 剪除 从 它 的 参数 出 发 不 能 到 达 
初始 非 终结 符 的 非 终结 符 。E1im_chain_Loops () 然 后 只 保留 循环 中 的 一 个 非 终结 符 ， 并 将 
循环 中 其 他 的 非 终结 符 从 文法 中 删除 ， 同 时 删除 构成 这 个 循环 的 规则 ， 修 改 剩余 的 规则 ， 以 便 
用 保留 下 来 的 那个 非 终 结 符 替 代 被 删除 的 非 终结 符 。 函 数 Replace (R，r，x) 用 符号 x 替换 规 
则 r 中 所 有 出 现在 非 终结 符 集 合 R 中 的 符号 ， 并 返回 只 包含 结果 规则 的 集合 ; 当 结果 得 到 的 规则 
具有 相同 的 左 端 和 右 端 时 ， 它 返回 $。 


procedure Elim Chain, Loops( ) 
begin 
ri, r2: Rule 
C, MG: set of Rule 
R: set of Nonterminal 
MG := MGrammar 
for each r1 € MG do 
if ri.lt * e & Iri.rt| = 1 then 
if Close(ri,C,R) then 
for each r2 € C do 
MGrammar := (MGrammar - {r2}) 
U Replace(R,r2,r1.1t) 
od 
fi 
fi 
MG -= {ri} 
od 
end || Elim Chain Loops 


procedure Close(rule,C,R) returns boolean 
rule: in Rule ` 


C: out set of Rule 
R: out set of Nonterminal 
begin 
ri: Rule 
|| determine set of grammar rules making up a chain loop 
R := Reach(rule.rt) 
if rule.lt € R tben 
Prune(rule.1t,R) 
fi 
C := ø 
for each ri € MGrammar do 
if ri.lt € R & iri.rti = 1 & ri.rt € R then 
C u= {ri} 
fi 
od 
return C * Ø 
end ‘|| Close 





图 6-13 ”删除 非 终 结 符 链 循 环 的 过 程 Elim_chain_Loops O 和 它 所 使 用 的 过 程 Close () - 


有 的 情形 也 可 能 希望 保留 链 循 环 ， 如 整数 寄存 器 和 浮 点 寄存 器 之 间 相互 转送 值 的 情况 。 这 
种 情况 用 显 式 的 一 元 操作 符 就 很 容易 进行 调节 。 





:不 必要 的 Error 状 态 。 例 如 ， 考 虑 图 6-15 的 机 器 描述 ， 它 给 


procedure Reach(r) returns set of Nonterminal 
x: in Nonterminal 


R := {r}, oldR: set of Nonterminal 
|| determine the set of nonterminals reachable from r 
|| without generating any terminal symbols 
repeat 
oldR := R 
for each ri € MGrammar do 
if ri.lt € R & |ri.rt| = 1 & ri.rtli € Nonterminal & ri.rti1 f R then 
R u= íri.rt) 
fi 
od 
until R = oldR 
return R 
end || Reach 


procedure Prune(1,R) 
1: in Nonterminal 
R: inout set of Nonterminal 
begin 
r: Nonterminal 
l| prune from R the set of nonterminals from which 
{| the initial nonterminal is not reachable 
for each r € R do 
if 1 £ Reach(r) then 
R -= {r} 
fi 
od 
end || Prune 





图 6-14 Close () 所 使 用 的 例 程 Reach () 和 Prune () 


6.2.4 删除 句法 阻 滞 . 
贷 禁 策略 总 是 执行 移 进而 不 进行 归 约 ， 常 常 也 会 导致 代码 生成 器 发 生 阻 灌 的 情况 ， 即 进入 


出 的 是 Hewlett-Packard 的 PA-RISC 寻 址 模式 的 文法 ， 其 中 c 表 
示 一 个 任意 常数 。 此 寻 址 模式 使 用 一 个 基 址 寄存 器 加 一 个 其 
值 可 以 左 移 0、1、2 或 3 位 的 索引 寄存 器 (由 图 中 最 后 四 行 表 
示 )。 对 于 这 个 文法 段 ， 阻 滞 发 生 在 那些 包含 项 目 [s=> 1 + 
*-n r] (其 中 , n=2, 4308) 的 状态 遇 到 任何 非 2、4 或 8 的 
输入 符号 时 。 但 是 对 于 任意 的 c， 形 如 “+ r * c r” 的 地 
址 ， 或 形 如 “+ r * r r” 的 地 址 都 是 合法 的 一 - 它 需 要 一 
串 指 令 来 计算 它 ， 而 不 仅仅 是 一 条 指令 。 具 体 地 ， 在 树 形式 
中 ， 对 于 第 一 种 情况 ， 我 们 有 图 6-16 所 示 的 推导 ， 它 对 应 于 “图 615 HewiettPackard 的 PARISC 
执行 一 个 乘法 操作 ， 接 着 一 个 加 法 操作 ， 再 接着 一 个 取 数 操 。 ” 寻 址 模式 机 器 描述 文法 段 
作 。 为 了 在 代码 生成 器 中 达到 这 个 目的 ， 我 们 需要 在 包含 项 目 [s= 1 + rt . nr] 的 那些 状态 
增加 根据 任意 常数 或 寄存 器 而 移 进 的 转换 ， 而 不 只 是 根据 2、4 或 8 进行 转换 。 与 上 面 的 推导 保 
持 一 致 ， 我 们 增加 一 个 根据 + 到 新 状态 的 转换 ， 以 及 从 那里 根据 s 到 另 一 个 新 状态 的 移 进 转换 ， 
后 面 这 个 新 状态 用 [s t+ r* r s- ] 进 行 归 约 并 生成 对 应 的 指令 序列 。 








自动 产生 代码 生成 器 113 


T t t 


1 | | | 


入 -入 -入 
a Jn r ç x r * r * 
A^ 


r r c r 


图 6-16 t + r * ct 的 树 形式 的 推导 序列 


修复 名 法 阻 滞 的 过 程 Fix_sSynt_Blocks() 和 附属 例 程 如 图 6-17 所 示 。 
Fix Synt Blocks () 反 向 沿 着 产生 式 链 尽 可 能 长 地 归 约 导致 阻 滞 的 这 个 符号 。 这 个 算法 可 
能 产生 需要 进一步 修复 的 项 目 , 就 像 在 这 个 特殊 的 例子 中 一 样 ， 在 这 个 例子 中 , 为 了 防止 阻 滞 ， 
最 终 符 号 也 需要 归 约 。 注 意 ，Derives () 正 确 操作 的 关键 是 我 们 必须 已 经 删除 了 链 循环 
否则 ， 对 于 某 些 输入 它 会 永远 递归 下 去 。 


procedure Fix Synt Blocks( ) returns boolean 
begin 
i, j: integer 
x, y: Nonterminal 
item, itemi: Item 
NextItems, I: set of Item 
i := 1 
while i < MaxStateNo do 
I := ItemSet [i] 
for each item € I do 
|| if there is a derivation that blocks for some inputs and 
|! not for others similar to it, attempt to generalize it by 
|| adding states and transitions to cover all similar inputs 
if 3x € Nonterminal 
(Derives([x],1, [item.rtl(item.pos*1)]) 
& Action(i,item.rti(item.pos*t1)) = Error,» 
& Derives([item.1t],0,Subst(item.rt,item.posti,x)) 
& Vy € Nonterminal (!Derives(fy],1,[x])) 
V !Derives([item.1t],0, 
Subst(item.rt,item.pos*i,[y]))) then 
item := Generalize(<lt:item.1t, 
rt:Subst (item.rt,item.pos+1,x) ,pos:item.pos), 
item.pos*i,litem.rt|) 
if item - nil then 
return false 
fi 
ItemSet [i] v= {item} 
Action(i,x) := <Shift,@> 
NextItems := Closure(Advance(fitemi € ItemSet [i] 
where itemi.lt = item.1t & itemi.rt = Subst (item.rt,pos+1,x) 
& itemi.pos = item.pos})) 
if 3j € integer (ItemSet[j] = NextItems) then 
Next(i,x) := j 
|| add new states and transitions where needed 
else 
StateNo := i 
MaxStateNo += 1 
ItemSet[MaxStateNo] := Nextitems 
Next(StateNo,x) := MaxStateNo 












































图 6-17 通过 归 约 一 个 或 多 个 非 终结 符 来 修复 句法 阻 滞 的 例 程 
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while StateNo “= MaxStateNo do 
Successors(StateNo) 
if !Uniform(StateNo) then 
return false 


fi 
od 
fi 
else 
return false 
fi 
I -= {item} 
od 
i += 1 


od 
return true 
end - || Fix Synt, Blocks 


procedure Generalize(item,lo,hi) returns Item 
item: in Item 
lo, hi: in integer 
begin 
i: integer 
l, x, y: Nonterminal . 
l| attempt to find a generalization of the blocking item 
for i := lo to hi do 
if 3x € Nonterminal (Derives([x],1,[item.rtii]) 
£ Derives([item.1t],O0,Subst(item.rt,i,x)) 
& vy € Nonterminal (!Derives([yl,1, (x1) 
V !Derives([item.1t],0,Subst(item.rt,i,y)))) then 
item.rtli := x 
fi 
od 
` return item 
end |i. Generalize 
procedure Derives(x,i,s) returns boolean 
x, 8: in VocabSeq 
i: in integer 
begin 
j: integer 
if i= 0&x= 8 then 
return true 
fi 
for each rule € MGrammar do 
for j := 1 to Ixl do 
if rule.lt = xij then 
return Derives(rule.rt,0,8) 


fi 
od 
od 
return false 


end || Derives 


procedure Subst(s,i,x) returns VocabSeq 
s: in VocabSeq 
i: in integer 

: x: in Vocab 


图 6-17 (fX) 


HOF 
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begin 
t := []: VocabSeq 
j: integer l 
for j := 1 to Isl do 
if j = i then 


t e- [x] 
else 
t è= [sij] 
fi 
od 
return t 
end || Subst 





图 6-17  (£&) 


fl'EXjFix Synt. Blocks () 动作 的 一 个 例子 ， 假 设 上 面 讨论 的 项 目 [s 之 1+ 工 *' 2r] 存 
放 在 ItemSet [26] 中 ， 并 且 MaxStateNo 是 33。 代 码 生 成 在 状态 26 对 于 任何 非 2 的 展望 符号 
都 发 生 阻 请， 因此 ， 我 们 使 用 这 个 例 程 来 发 现 是 否 有 其 他 可 能 的 非 阻 潇 动 作 。 该 例 程 设置 z 为 
r 并 判别 出 存在 一 个 推导 s 为 1 + r*r r。 因 此 ， 它 调用 

Generalize ([s» 1! +r*.rr ], 6, 6) 

这 个 函数 返回 [s $ 1 «x* .r+ s ]。 此 项 目 变 成 item 的 值 并 且 被 加 到 Itemset [26] 中 。 现 在 
Action (26, r) 被 设 成 <Shiftt，Y1>，NextItems 变 成 


{[s >t +r%r-s J, [s 2—2-:r]) 

MaxStateNo 增 加 到 34，ItemSet [34] 被 设置 成 上 面 的 集合 ，Next (26, r) 设置 为 34。 
最 后 ， 该 例 程 使 用 Successors () 和 Uniform() 产 生 新 增加 的 状态 ， 以 及 处 理 这 些 新 项 目 和 
保证 这 些 新 状态 的 一 致 性 所 需要 的 转换 。 

6.2.5 最 后 的 考虑 


早期 Graham-Glanville 代 码 生成 器 的 一 个 问题 是 ， 对 于 具有 很 多 种 指令 类 型 和 寻 址 方式 的 
机 器 ， 其 机 器 描述 的 Action/Next 表 非常 大 (对 于 VAX， 大 约 产生 有 8 000 000 条 规则 ) 。 
Henry[Henr84] 开 发 的 一 种 方法 能 有 效 地 压缩 访 表 ， 而 且 不 管 怎样 ， 这 个 问题 对 于 典型 的 RISC 
机 器 已 不 再 那么 严重 ， 因 为 它们 中 的 多 数 只 提供 少数 几 种 寻 址 方式 。 


6.3 .语义 制导 的 分 析 介 绍 


本 节 我 们 概述 第 二 种 使 用 前 缀 波兰 中 间 代 码 的 代码 生成 方法 ， 即 由 Ganapathi 和 Fischer 开 发 
的 属性 文法 (或 词 级 文法 ) (attribute or affix-grammar) 方 法 。 这 种 方法 通过 使 用 属性 来 给 代码 
生成 规则 增加 语义 ， 因 而 它 的 能 力 更 强 但 也 更 复杂 。 这 里 只 介绍 这 种 方法 的 思想 ， 具 体 的 细节 
.请 读者 查阅 有 关 文 献 。 

我 们 假定 读者 熟悉 属性 文法 的 基本 概念 。 我 们 在 其 前 放置 一 个 向 上 的 第 头 “1 ”表示 继承 
属性 ， 在 其 前 放置 一 个 向 下 的 箭头 “上 ”表示 综合 属性 ， 属 性 值 写 在 第 头 后 面 。 除 了 在 代码 生 
成 过 程 中 上 下 传递 值 之 外 ， 属 性 被 用 来 控制 代码 生成 ， 以 及 计算 新 的 属性 值 和 生成 副作用 。 控 


制 通过 表示 谓词 的 大 写 斜体 属性 〈 例 如， 下 例 中 的 IsShorr) 来 实现 。 一 条 规则 在 给 定 的 情况 下 


是 可 应 用 的 ， 即 当 且 仅 当 它 在 句法 上 匹配 主语 字符 串 并 且 满 足 它 的 所 有 谓词 。 动 作用 大 写 的 印 
刷 体 书写 (例如 ， 例 中 的 EMIT3 ) ， 它 计算 新 的 属性 值 并 生成 副作用 。 当 然 ， 属 性 文法 代码 生 
成 器 中 最 重要 的 副作用 是 流出 代码 。 





=) 
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例如 ， 图 6-1 中 关于 一 个 寄存 器 的 内 容 与 一 个 常数 相 加 的 Graham-Glanville 规 则 

r.3-—« r.1 k.2 add r.1, k.2, r.3 

r.3z»« k.2 r.1 add r.1, k.2, r.3 . 
可 以 转变 成 如 下 检查 常数 是 否 在 所 允许 的 范围 内 的 属性 文法 规则 ， 并 且 在 这 些 规 则 中 含有 代码 
流出 和 寄存 器 分 配 : 

rtr2=+ rirl klkl IsShort (ki) ALLOC (72) EMIT3("add", rl, Kl, 72) 

rires kikl riri IsShort (ki) ALLOC (72) EMIT3(*add", rl, Kl, r2) 
其 中 第 一 条 规则 应 当 这 样 读 : 给 定 一 个 形 如 “+rk” 的 前 级 波兰 字符 串 且 有 寄存 器 为 r-1L 和 常数 
Akl, 如 果 访 常数 满足 谓词 15sShort (Kk1)， 则 分 配 一 个 寄存 器 r2 存 放 结 果 ， 流 出 通过 替换 与 寄存 
器 和 常数 相关 的 值 而 获得 的 一 条 三 操作 数 add 指 令 ， 归 约 该 字符 串 为 zr， 然后 向 上 传递 值 r2 作 
为 非 终结 符 z 的 综合 属性 。 

除了 从 低级 中 间 语 言 生成 代码 之 外 ， 属 性 文法 也 能 用 于 其 他 用 途 ， 如 存储 绑 定 〈 即 ， 从 中 
级 中 间 形 式 生成 代码 ) ， 将 各 种 宕 孔 优化 集成 到 代码 生成 器 ， 以 及 对 机 器 描述 规则 集合 进行 因 
子 分 解 使 得 它 的 规模 相对 减 小 。 因 为 属性 文法 能 做 存储 绑 定 ， 因 此 我 们 也 可 以 使 用 层次 稍 高 一 
点 的 中 间 人 代码， 例如 MIR 的 前 组 波兰 转换 形式 。 事 实 上 ， 因 为 谓词 和 函数 可 以 随意 编写 ， 因 此 
它们 实质 上 可 用 来 做 编译 后 端 可 进行 的 任何 工作 一 一 例如 ， 我 们 可 以 积累 所 有 要 流出 的 代码 作 
为 某 个 属性 的 值 ， 直 到 整个 输入 字符 串 都 已 归 约 时 ， 然 后 对 它 进行 所 需 信 息 已 经 足够 时 的 任何 
转换 (并且 我 们 也 可 以 在 代码 生成 期 间 积累 这 些 信息 )。 

Ganapathi 和 Fischer 的 报告 称 ， 已 经 构建 了 三 个 基于 属性 文法 的 代码 生成 器 的 产生 器 (一 个 
从 UNIX 的 分 析 器 生成 器 YACC 构 建 ， 第 二 个 从 ECP 构 建 ， 第 三 个 是 从 头 开 始 ) ， 并 且 已 经 在 


. Fortran、Pascal、BASIC 和 Ada 等 编译 器 中 利用 它们 为 将 近 十 多 种 体系 结构 生成 了 代码 生成 器 。 


6.4 树 模式 匹配 和 动态 规划 


本 节 我 们 介绍 第 三 种 自动 产生 代码 生成 器 的 方法 ， 这 种 方法 由 Aho、Ganapathi 和 
Tiiang[AhoG89] 等 人 开发 。 他 们 的 方法 使 用 树 模式 匹配 和 动态 规划 ， 所 产生 的 系统 就 是 著名 的 twig。 

动态 规划 (dynamic programming) 是 一 种 在 计算 过 程 中 根据 适用 于 当前 所 考虑 范围 的 最 
优 性 原理 (optimality principle) 进行 决策 的 方法 。 这 个 最 优 性 原理 断定 ， 如 果 所 有 子 问题 都 以 . 
最 优 方式 解决 ， 则 整个 问题 能 够 通过 用 特定 的 方法 组 合 这 些 子 问题 的 解 而 以 最 优 的 方式 解决 。 
使 用 动态 规划 的 方法 与 Graham-Glanville 代 码 生 成 器 所 采用 的 贪 禁 方法 形成 鲜明 的 对 比 一 一 与 
仅 尝 试 一 种 方法 来 进行 树 的 匹配 不 同 ， 我 们 可 以 尝试 多 种 方法 ， 但 只 能 用 那些 对 于 已 匹配 部 分 
而 言 是 最 优 的 方法 ,因为 对 于 给 定 的 一 种 可 应 用 的 最 优 原理 ， 只 有 这 些 方法 的 组 合 才 可 能 生成 
对 于 总 体 是 最 优 的 代码 序列 。 

当 +wig 用 某 个 模式 匹配 一 棵 子 树 时 ， 它 一 般 用 另 一 棵 树 来 替代 该 子 树 。 在 匹配 过 程 中 因为 
成 功 归 约 一 棵 树 到 单个 结 点 而 被 重 写 的 子 树 序列 称 为 树 的 禾 盖 (cover)。 最 小 代价 覆盖 
(minimal-cost cover) 是 使 得 产生 这 个 覆盖 的 匹配 操作 的 代价 之 和 【细节 如 下 所 示 ) 尽 可 能 小 
的 那个 覆盖 。 代 码 流出 和 寄存 器 分 配 作 为 匹配 过 程 中 的 副作用 而 执行 。 

twig 的 输入 由 如 下 形式 的 树 重 写 规则 组 成 : 

label: pattern [ { cost ) ] [= (action ) ] 


其 中 ，iepe! 是 一 个 标识 符 ， 它 对 应 于 文法 规则 左 端的 非 终结 符 ; pattern 是 括 在 括号 内 的 树 模式 
的 前 缀 表示 ; cost 是 在 子 树 与 模式 相 匹配 时 由 代码 生成 器 执行 的 C 代 码 ， 它 返回 由 动态 规划 算 
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法 使 用 的 一 个 代价 ， 而 pattern 则 确定 该 模式 是 否 满足 关于 匹配 该 子 树 的 语义 标准 ; action 是 一 
段 C 代 码 ， 如 果 模 式 匹 配 成 功 ， 并 且 动 态 规划 算法 判别 出 该 模式 是 整个 树 的 最 小 代价 覆盖 部 分 ， 
则 执行 这 段 代码 。action 部 分 可 以 包括 用 另外 的 树 替 代 已 匹配 的 子 树 、 流 出 代码 或 其 他 动作 。 

如 围绕 它们 的 方 括号 所 示 ，cost 和 acrion 部 分 都 是 可 选 的 。 如 果 缺 少 cost， 它 返回 由 别处 指 
明 的 默认 代价 值 ， 并 且 假 定 模式 是 匹配 的 。 如 果 缺 少 actfiomn， 默 认 动 作 是 不 做 任何 动作 。 

图 6-18 中 的 树 重 写 系统 为 模式 匹配 处 理 过 程 的 一 个 例子 ， 它 包含 了 图 6-1 中 某 些 规则 的 树 
形式 。 谓 词 1sShort( ) 判别 它 的 参数 是 否 能 放 入 SPARC 指 令 的 13 位 常数 域 中 。 对 应 的 twig 规 范 
如 图 6-19 所 示 。prologue 实 现 函 数 1s5Short ( )。label 声 明 列 出 了 所 有 可 以 作为 标号 出 现 的 
标识 符 ，node 声 明 列 出 了 所 有 能 够 在 模式 中 出 现 的 标识 符 ， 但 已 在 label 中 列 出 的 标识 符 9 
除外 。 字 符 串 $$ 是 一 个 指针 ， 它 指向 模式 所 匹配 的 那 棵 树 的 树 根 ， 形 如 $i$ 的 字符 串 指 向 这 个 
根 的 第 个 儿子 。ABORT 导 致 模式 匹配 流产 ， 其 效果 是 返回 无 穷 大 的 代价 。NODEPTR 是 结 点 的 
3EX!. getreg () 是 寄存 器 分 配器 。 各 种 emit_.. . () 例 程 流出 特定 类 型 的 指令 。 


重 写 规则 


reg.i-» con.c IsShort(c) ;1 or c,rO,ri 


t 
reg.i = ÆN 1 ld [rj,rk],ri 


reg.j  reg.k 


t 
reg.i- oa N IsShort(c) ; 1 [rj,cl, ri 


reg.j  con.c 


n f < 
e= A NN ri, (rj, rk] 


reg.i reg.j reg.k 


«— 
e= A NNS IsShort(c) ;1 ri, [rj,c] 


reg.i reg.j con.c 


* ae 
reg.k=> ÆN f add ri,rj,rk 


reg.i  reg.j 
图 6-18 一 个 简单 的 树 重 写 系统 
现在 ， 假 设 我 们 正在 为 如 下 带 括号 的 前 缀 表达 式 生成 代码 : 


st (add(1d(r8,8),add(x2,1d (r8, 4)))) 

我 们 故意 将 它 设计 得 与 图 6-3 中 的 第 二 棵 树 类 似 ， 但 只 使 用 图 6-19 中 定义 的 操作 。 模 式 匹 配器 
将 以 下 降 方式 查找 这 个 表达 式 的 树 结构 ， 直 到 发 现 模式 1 匹配 子 表达 式 “8 ”和 模式 3 匹配 
“1G (r8,8)”。 使 用 这 些 匹 配 中 的 第 一 个 将 产生 一 棵 与 模式 2 匹配 的 子 树 ， 但 它 的 代价 是 2， 而 
单独 使 用 模式 3 时 所 产生 的 代价 是 1， 因 此 应 当 使 用 模式 3。 子 表达 式 “1d (r8, 4) ”也 类 似 地 
进行 匹配 。 但 是 ， 这 两 个 隐 含 的 归 约 都 不 应 当 立 即 进行 ， 因 为 可 能 还 存在 可 选择 的 代价 较 小 的 
其 他 匹配 ; 相反 ， 应 当 将 每 一 个 匹配 的 指示 器 存储 在 所 匹配 子 表达 式 的 根 结 点 中 。 一 旦 这 个 匹 
配 过 程 完成 ， 就 可 以 执行 归 约 和 相应 的 动作 。 





O “rmi8 使 用 字母 标识 符 而 不 是 诸如 “1 ”和 “+ ”之 类 的 符号 ， 因 为 它 不 是 为 处 理 后 者 而 设计 的 。 
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prologue { int IsShort(NODEPTR p); 
{ return value(p) >= -4096 && value(p) <= 4095; ) } 

node con id st add; 

label reg no. value; 



























reg : con 
( if (IsShort($$)) cost - 1; 

else ABORT; } 
= { NODEPTR regnode = getreg( ); 
enit 3("or",$$,"r0",regnode); 
return regnode; ) 


reg : ld(reg,reg,reg) 
{ cost = 1; } 
= ( NODEPTR regnode = getreg( ); 

emit ld($2$,$3$,regnode); 

return regnode; } 


reg : ld(reg,reg,con) 
{ cost = 1; } 
= { NODEPTR regnode = getreg( ); 

emit. 1d($2$,$3$,regnode); 

return regnode; } 


no value : st(reg,reg,reg) 

{ cost = 1; } 

= { emit_st ($1$,$2$, $3$) ; 
return NULL; } 





no_value : st(reg,con,reg) 
{ cost = 1; } 
= ( emit_st ($1$,$28,$3$) ; 
return NULL; } 


reg : add(reg,reg,reg) 
{ cost = 1; } 
= { NODEPTR regnode = getreg( ); 
emit 3('"add",$1$,$2$,regnode); 
return regnode; } 


图 6-19 twig 中 与 图 6-18 树 重 写 系 统 对 应 的 规范 
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twig 的 代码 生成 方法 是 如 上 所 述 的 自 顶 向 下 的 树 模式 匹配 和 动态 规划 的 结合 。 基 本 的 思想 
是 ， 树 可 以 用 从 其 根 结 点 到 叶子 结 点 的 带 标号 的 路 径 集 合 来 刻画 ， 其 中 ， 标 号 以 结 点 为 单位 按 
后 裔 的 顺序 依次 编号 。 路 径 字符 事 (path string) 中 ， 表 示 标 号 的 整数 和 结 点 标识 符 交 替 地 出 
现 。 例 如 ， 图 6-3 中 第 三 棵 树 可 以 惟一 地 用 如 下 一 些 路 径 字符 串 表示 : ， 


e 1 
<1 
< 2 
e2 


+ 
+ 


并 且 为 这 个 树 模式 也 能 构造 出 类 似 的 字符 串 集合 。 树 模式 集合 的 路 径 字 符 品 依次 又 可 用 来 构造 


模式 匹配 自动 机 ， 它 是 一 种 广义 的 有 限 自 动机 。 该 自动 机 并 行 地 匹配 各 种 树 模式 ， 并 且 每 一 个 
接收 状态 指明 它 对 应 的 树 模 式 通过 的 是 哪 一 条 路 径 。 子 树 与 一 个 树 模式 相 匹配 ， 当 且 仅 当 对 于 


与 该 树 模式 对 应 的 每 一 条 路 径 字符 囊 ， 自 动机 存在 一 条 到 接收 状态 的 通路 。 
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作为 这 种 自动 机 的 例子 ， 我 们 为 图 6-18 中 的 规则 构造 一 个 自动 机 。 它 们 对 应 的 路 径 字 符 
串 和 规则 如 图 6-20 所 示 ， 所 构成 的 自动 机 如 图 6-21 所 路 径 字 符 串 
”， 示 。 自 动机 的 初始 状态 是 0， 用 双 圆 围 表示 的 状态 是 
接收 状态 ， 每 一 个 非 接收 状态 有 一 个 另外 未 画 出 的 
转换 ， 即 ， 关 于 “其 他 符号 ” 移 进 到 错误 状态 ( 标 
识 为 “error” ) 的 转换 。 在 接收 状态 附近 的 标号 给 出 
某 个 路 径 字符 串 用 来 产生 该 状态 的 规则 编号 。 例 如 ， 
规则 5 中 的 模式 被 匹配 ， 当 且 仅 当 并 行 运 行 该 自动 机 
导致 停止 在 状态 9?、11 和 14。 在 本 节 给 出 的 文献 中 可 
找到 构造 这 个 自动 机 的 细节 以 及 如 何 用 代码 来 实现 
它 的 方法 。 





图 6-20 图 6-18 中 规则 的 树 匹 配 路 径 字 符 串 





”图 6-21 图 6-18 中 规则 的 树 匹配 自动 机 


这 种 动态 规划 算法 假定 给 它 的 是 一 个 统一 寄存 器 的 机 器 ， 该 机 器 具有 mn 个 可 相互 交换 的 寄存 
器 ri 和 形 如 ri E 的 指令 ， 其 中 E 是 由 运算 符 、 寄 存 器 和 存储 位 置 组 成 的 表达 式 。 与 每 一 个 指令 序 
列 相关 的 代价 是 每 一 条 指令 的 代价 之 和 。 访 算法 将 表达 式 E 的 代码 生成 问题 划分 成 子 问题 ， 每 
一 个 问题 对 应 EB 的 一 个 子 表达 式 ， 并 以 递归 方式 来 解 这 些 子 问题 。 使 动态 规划 可 应 用 的 关键 是 
要 连接 地 计算 每 一 个 子 表达 式 ， 即 ， 首 先 计算 那些 其 值 必须 存放 到 存储 单元 的 子 表达 式 ， 然 后 
按 左 子 树 、 右 子 树 、 树 根 的 顺序 ， 或 者 按 右 子 树 、 左 子 树 、 树 根 的 顺序 来 计算 表达 式 。 这 样 ， 
一 旦 子 树 中 必须 存放 到 存储 器 的 表达 式 已 计算 出 来 ， 就 不 会 在 计算 一 个 运算 符 的 各 个 子 树 之 间 
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价 不 大 于 它 且 所 用 寄存 器 个 数 最 少 地 计算 同一 表达 式 的 指令 序列 ， 而 且 这 个 指令 序列 是 连接 的 。 

注意 ， 大 部 分 实际 的 机 器 没有 统一 的 寄存 器 ， 尤 其 是 ， 它 们 还 有 若干 需 使 用 奇偶 寄存 器 偶 
对 的 操作 ， 而 且 ， 人 们 可 以 给 出 这 种 表达 式 的 例子 ， 得 出 它 的 最 优 求 值 序列 需要 在 它 的 子 表达 
式 之 间 摇 摆 多 次 。 但 是 ， 表 达 式 的 大 小 与 所 需要 的 摆动 次 数 至 少 呈 线性 增长 的 这 种 例子 是 很 少 
见 的 ， 并 且 实际 中 的 表达 式 一 般 不 是 特别 大 ， 因 此 ， 连 接 性 只 是 略微 有 点 违反 ， 因 而 在 实际 中 
该 算法 几乎 总 是 生成 接近 最 优 的 指令 序列 。 l 

Aho 和 Johnson 的 算法 [AhoJ761] 有 三 个 步 又 : (1) 对 表达 式 树 的 每 一 个 结 点 N， 自 下 而 上 地 
计算 代价 表 中 的 表 项 c[N， 昌 ， 其 中 表 项 cIN， 是 的 值 是 在 至 多 使 用 i 个 寄存 器 的 情况 下 计算 以 N 
为 根 的 树 所 需要 的 代价 ; (2) 使 用 代价 表 来 确定 哪 一 棵 子 树 的 值 必 须 存放 到 存储 器 中 ; 
(3) 递归 地 确定 计算 子 树 的 最 优 指令 序列 。 

twig 的 经 验 表 明 编 写 和 修改 twig 的 规范 相当 容易 ， 它 产生 的 代码 生成 器 在 质量 和 性 能 两 方 
面 都 可 与 专门 为 易于 移植 而 设计 的 代码 生成 器 相 比 ， 例 如 可 移植 C 编 译 器 pcc2 的 代码 生成 器 。 

自 下 而 上 的 树 匹配 也 能 用 于 从 机 器 描述 自动 产生 能 生成 最 优 代码 的 代码 生成 器 。Pelegri- 
Llopart 开 发 了 一 种 这 样 的 方法 ， 这 种 方法 基于 自 下 而 上 重 写 系 统 ， 即 BURS (bottom-up 


rewriting systems ) 。 
6.5 ”小结 


本 章 我 们 简要 地 讨论 了 从 中 间 代 码 生成 机 器 代码 的 有 关 问 题 ， 然 后 探讨 了 从 机 器 描述 产生 
代码 生成 器 的 自动 方法 。 

需要 考虑 的 基本 问题 包括 : 目标 机 体系 结构 、 必 须 遵循 的 软件 约定 、 中 间 语 言 的 结构 和 特征 、 
中 间 语 言 中 那 种 没有 目标 机 指令 与 之 直接 对 应 的 操作 的 实现 方法 、 生 成 汇编 语言 代码 还 是 直接 后 
成 机 器 代码 的 可 链接 或 可 重 定位 版 本 ， 以 及 将 中 间 代码 转换 到 所 选择 的 目标 代码 形式 的 方法 。 

我 们 编写 的 编译 器 是 为 支持 单一 语言 单一 目标 机 体系 结构 ， 还 是 为 支持 多 种 语言 多 种 目标 
机 体系 结构 ， 或 二 者 都 支持 ， 决 定 了 选择 这 些 问题 时 的 重要 性 。 尤 其 是 ， 涉 及 的 目标 体系 结构 
越 多 ， 使 用 自动 方法 就 越 重要 。 

尽管 手工 书写 的 代码 生成 器 效率 高 且 实 现 起 来 较 快 ， 但 它们 明显 的 缺点 是 用 手工 实现 ， 因 
此 比 自动 生成 的 代码 生成 器 要 难于 修改 和 移植 。 

已 经 开发 出 来 了 若干 种 从 机 器 描述 构造 代码 生成 器 的 方法 ， 我 们 以 不 同 的 详 略 程度 介绍 了 其 
中 三 种 。 这 三 种 方法 都 从 已 展开 了 地 址 计算 的 低级 中 间 代 码 开始 ， 并 且 三 者 都 对 树 进行 模式 匹配 ， 
一 种 是 显 式 ， 另 外 两 种 是 隐 式 ， 即 对 前 绥 波 兰 中 间 代码 ， 这 种 代码 是 树 序列 的 前 序 人 遍历 表 示 。 


6.6 进一步 阅读 


[Catt79] 报 告 了 第 一 个 具有 重要 意义 的 自动 产生 代码 生成 器 的 成 功 项 目 。 

Graham-Glanville 代 码 生 成 方法 的 第 一 次 描述 是 在 [GlaG78] 中 ， 在 [AigG84] 和 [Henr84] 中 得 
到 了 进一步 的 发 展 。[GraH82]、[Bird82]、[LanJ82] 和 [ChrH84] 等 论文 中 介绍 了 Graham- 
Glanville 代 码 生 成 器 的 产生 器 的 其 他 实现 。 

属性 文法 代码 生成 方法 是 由 Ganapathi 和 Fischer 开 发 的 ， 在 [GanF82]、[GanF84]、[GanF85] 
以 及 其 他 一 些 论文 中 有 这 种 方法 的 描述 。ECP 错 误 修复 分 析 器 是 各 种 Ganapathi 和 Fischer 实 现 的 
基础 ， 其 描述 见 [MauF81]。 

[Enge75] 对 树 自 动机 及 其 用 途 作 了 极 好 的 介绍 。[AhoG89] 中 描述 了 由 Aho、Ganapathi 和 
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Tijiang 开 发 的 代码 生成 树 模式 匹配 方法 。 这 种 树 模式 匹配 方法 是 Aho 和 Johnson[AhoJ76] 开 发 的 
线性 时 间 字 符 串 匹配 算法 的 推广 ， 并 吸收 了 Hoffoman 和 O'Donnell[HofO82] 将 它 扩充 到 树 的 某 
些 思想 。 动 态 规划 算法 以 Aho 和 Johnson [AhoJ76] 开 发 的 方法 为 基础 。Aho、Ganapathi 和 Tjiang 
用 来 与 twig 进 行 比较 的 pcc2 可 移植 C 编 译 器 的 介绍 见 [John78]。Pelegri-Llopart 自 底 向 上 树 匹 配 
生成 局 部 最 优 代码 的 方法 的 介绍 见 [Pele88] 和 [PelG88]。[AhaL93] 介 绍 了 从 高 级 中 间 代 码 开始 
生成 代码 的 基于 树 自动 机 的 方法 。 

Henry 和 Damron ( [HenD89a] 和 [HenD89b]) 给 出 了 十 多 种 从 机 器 描述 自动 生成 代码 生成 器 
方法 的 极 好 的 综述 ， 对 其 中 8 种 方法 进行 了 详细 的 讨论 和 评价 ， 并 从 它们 所 产生 的 代码 生成 器 
的 速度 和 所 生成 的 代码 质量 两 个 方面 对 这 些 方 法 进行 了 性 能 比较 。 


6.7 练习 


6.1 编写 Emit_Instrs() (参见 6.2.1 节 ) 的 ICAN 版 本 ， 它 要 能 充分 适应 图 6-8 中 的 文 
法 ， 包 括 区 别 短 常数 。 
6.2 (a) 构造 出 关于 如 下 机 器 描述 规则 和 指令 的 Graham-Glanville 分 析 表 ， 其 中 fr. n 表 示 


fr.2 之 fr.1 fmov fr.i,fr.2 
fr.2 => mov fr.2 fr.1 fmov fr.i,fr.2 
r.3-2» + r.1r.2 add r.1,r.2,r.3 
r.3-»-r.1r.2 sub r.i,r.2,r.3 
fr.3 = +f fr.1 fr.2 fadd fr.i,fr.2,fr.3 
fr.3 = -f fr.1 fr.2 fsub  fr.i,fr.2,fr.3 
fr.3 = *f-fr.1 fr.2 fmuls fr.1,fr.2,fr.3 
fr.3 => /f fr.1 fr.2 . fdivs fr.i,fr.2,fr.3 
fr.2 = sqrt fr.1 fsqrts fr.i,fr.2 
fr.2 æ cvti fr.1 fr.2 fstoi fr.1,fr.2 
fr.2 = cvtf fr.1 fr.2 fitos fr.1,fr.2 
fr.3 =» T+ ldf [r.1,r.2],fr.3 


-lr.2 
.1 k.2 ldf [r.1,k.2],fr.3 


r 
fr.3 =» Tr 
1 ldf [r.1],fr.2 


fr.2 = Tr. 


€ > «- * r.2 r.3 fr.1 stf fr.i,[r.2,r.3] 
€ > < +r.2 k.i fr.1 stf fr.1,Ír.2,k.3] 


(b) 通过 为 如 下 前 级 波兰 序列 生成 代码 来 检查 你 的 分 析 自 动机 。 
< + ri 4 cvti -f fr2 

mov fr2 *f fr3 T + r1 8 

< * ri 12 sqrt f + r7 0 


63 构造 上 一 练习 中 的 文法 有 关 的 关系 (Left. Right) mA (Parent (), Follow () 等 )。 
6.4 给 出 一 个 比 6.2.3 节 开始 的 那个 链 循环 更 复杂 的 链 循环 例子 ， 并 使 用 图 6-13 的 算法 来 
删除 它 。 
6.5 编写 一 个 可 在 Graham-Glanville 分 析 表 构造 期 间或 构造 之 后 使 用 的 链 循环 删除 器 。 
6.6 给 出 一 个 在 计算 机 科学 中 使 用 动态 规划 的 例子 ，6.4 节 的 例子 除外 。 
RSCH 6.7 阅读 Pelegri-Llopart 和 Graham 的 论文 [PelG88]， 并 用 ICAN 编 写 一 个 基于 BURS 的 代 166 
码 生 成 器 的 产生 器 。 167 





第 7 章 控制 流 分 析 


为 实现 编译 优化 ， 我 们 必须 使 编译 器 对 程序 如 何 使 用 系统 中 的 可 用 资源 具有 全 局 性 的 “ 理 
解 ”能 力 ? 。 编 译 器 必须 能 刻画 程序 的 控制 流 和 它们 对 数据 执行 的 操作 相关 的 特征 ， 以 便 删除 
由 未 优化 的 编译 器 产生 的 任何 无 用 的 代码 ， 从 而 使 低 效 的 、 较 通用 的 机 制 被 更 高 效 的 专用 机 制 
所 替代 。 

当 编译 器 读 人 程序 时 ， 它 一 开始 是 将 程序 看 成 简单 的 字符 序列 。 词 法 分 析 器 将 这 些 字符 序 
列 转换 为 单词 ， 语 法 分 析 器 从 中 进一步 发 现 语法 结构 。 由 编译 前 端 产生 的 结果 可 以 是 语法 树 或 
某 种 低级 形式 的 中 间 代 码 。 但 是 ， 不 论 这 种 结果 是 什么 形式 ， 它 对 程序 做 什么 和 怎样 做 仍然 没 
有 多 少 提示 。 编 译 器 将 发 现 每 一 个 过 程 内 控制 流 层 次 结构 的 任务 留 给 了 控制 流 分 析 ， 将 确定 与 
数据 处 理 有 关 的 全 局 信息 的 任务 留 给 了 数据 流 分 析 。 

在 考虑 控制 流 分 析 和 数据 流 分 析 中 使 用 的 形式 化 技术 之 前 ， 我 们 先 给 出 一 个 简单 的 例子 。 
我 们 从 图 7-1 的 C 例 程 开 始 ， 这 个 例 程 对 给 定 的 m > 0， 计算 第 m 个 斐 波 那 契 数 。 对 于 给 定 的 输入 
值 m， 它 检查 该 数 是 否 小 于 或 等 于 1， 当 小 于 或 等 于 1 时 返回 该 参数 值 ; 否则 ， 它 迭代 计算 过 程 
直到 得 出 数列 的 第 m 个 成 员 ， 并 返回 此 数 。 在 图 7-2 中 ， 我 们 给 出 了 这 个 C 例 程 被 转换 为 MIR 后 
的 代码 。 

unsigned int fib(m) 

unsigned int m; 
{ unsigned int fO = 0, f1 = 1, f2, i; 


if (m <= 1) { 
return m; 


receive m (val) 
foe 0 
fi < 1 
if m <= 1 goto L3 
i 2 
: if i <= m goto L2 
return f2 
: f2 < fO + fi 
fO « fi 
fi «- f2 
ie i+t 
goto L1 
: return m 


图 7-1 计算 斐 波 那 契 数 的 C 例 程 图 7-2 图 7-1 中 C 例 程 的 M 孙 中 间 代 码 


else ( 
for (i = 2; i <= m; i++) { 


f2 = f0 + £1; 
fO = f1; 
fi = f2; 

} 


return f2; 


1 
2 
3 
4 
5 
6 
7 
8 
9 





在 分 析 这 个 程序 时 ， 我 们 的 第 一 个 任务 是 发 现 它 的 控制 流 。 就 这 个 程序 的 源 代码 而 言 ， 可 
以 断言 其 控制 结构 是 显然 的 一 一 函数 体 由 一 个 在 else 部 分 含 一 个 循环 的 if-then-else 结 构 
组 成 ; 但 是 ， 在 中 间 代 码 中 ， 控 制 结构 就 不 那么 明显 了 。 此 外 ， 循 环 也 可 能 是 用 if 和 goto 形 
成 的 ， 因 此 ， 源 代码 中 的 控制 结构 也 可 能 不 那么 明显 。 因 此 ， 控 制 流 分 析 的 形式 方法 肯定 不 是 
无 用 的 。 为 了 使 控制 流 分 析 方 法 能 应 用 于 一 目 了 然 的 程序 ， 我 们 首先 转换 程序 为 一 种 形象 的 表 
示 ， 即 如 图 7-3 所 示 的 流程 图 (flowchart). 


日 将 “理解 ”加 上 引号 是 因为 我 们 觉得 防止 将 优化 过 程 拟 人 化 是 重要 的 ， 通常 与 它 对 应 的 词 是 “计算 ”。 
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1 [Receive = Ga] 
2 
3 
‘Ger 
4 
zm 
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6 
9 fO < fi 
10 | f1 «€ £2 
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图 7-3 与 图 7-2 对 应 的 流程 图 


接 下 来 标识 基本 块 。 非 正式 地 说 ， 基 本 块 是 一 段 只 能 从 它 的 开始 处 进入 ， 并 从 它 的 结束 处 
离开 的 线性 代码 序列 。 显 然 ， 结 点 1 到 结 点 4 构成 了 一 个 基本 块 ， 我 们 称 该 基本 块 为 B1; 结 点 8 
到 结 点 11 构 成 了 另 一 个 基本 块 ， 称 该 基本 块 为 B86; 其 他 每 一 个 结 点 独自 构成 一 个 基本 块 ， 其 
中 结 点 12 对 应 于 B2 ， 结 点 5 对 应 于 B3 ， 结 点 6 对 应 于 B4， 结 点 7 对 应 于 B5。 下 面 我 们 将 构成 一 
个 基本 块 的 所 有 结 点 晓 化 成 一 个 结 点 ， 这 个 结 点 代表 整个 MIR 指 令 序 列 ， 由 此 产生 了 该 例 程 的 
流 图 (flowgraph), 如 图 7-4 所 示 。 由 于 技术 原因 ( 当 我 们 讨论 向 后 数据 流 分 析 问 题 时 便 会 明白 )， 
我 们 增加 了 一 个 以 第 一 个 基本 块 作为 其 后 继 的 entry 基 本 块 ， 和 一 个 放 在 流 图 结尾 的 exit 基 
本 块 ， 并 使 流 图 中 每 一 个 实际 从 该 例 程 出 口 的 分 支 (基本 块 B2 和 B5 ) 转向 exit 基 本 块 。 

下 面 我 们 利用 所 谓 的 必 经 结 点 (dominator) 来 标识 该 例 程 中 的 循环 。 本质 上 ， 如 果 从 
entry 到 B 的 每 一 条 路 径 都 包含 A， 则 流 图 中 结 点 A 是 结 点 B 的 必 经 结 点 。 容 易 证 明 流 图 中 结 点 
上 的 必 经 结 点 关系 是 反对 称 的 、 自 反 的 和 传递 的 ， 其 结果 是 这 种 必 经 结 点 关系 可 以 表示 成 以 
entry 结 点 作为 根 的 一 棵 树 。 对 于 图 7-4 中 的 流 图 ， 其 必 经 结 点 树 如 图 7-5 所 示 。 





entry 


B5 B6 


图 7-4 图 7-3 对 应 的 流 图 图 7-5 图 7-4 中 流 图 的 必 经 结 点 树 
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”现在 可 以 用 必 经 结 点 树 来 标识 循环 了 。 流 图 中 的 回 边 《back edge) 是 这 样 一 条 边 ， 这 条 边 
的 头 结 点 是 其 尾 结 点 的 必 经 结 点 ， 例 如 从 B6 到 B4 的 边 。 一 个 循环 由 满足 下 述 条 件 的 所 有 结 点 
组 成 : 循环 的 入 口 结 点 ( 即 回 边 的 头 结 点 ) 是 所 有 这 些 结 点 的 必 经 结 点 ， 所 有 这 些 结 点 都 可 以 
到 达 入 口 结 点 ,而 且 其 内 只 有 一 条 回 边 。 因 此 B84 和 B6 形 成 了 一 个 循环 ， 其 中 B4 是 循环 的 入 口 
结 点 ， 且 此 循环 不 包含 图 中 其 他 的 结 点 。 | 
第 8 章 将 继续 用 这 个 例子 作为 讨论 数据 流 分 析 的 初始 例子 。 现 在 我 们 着 手 对 此 例 中 过 到 的 
一 些 概念 给 出 更 正式 的 说 明 ， 讲 述 这 些 概念 的 若干 细节 ， 以 及 它们 的 不 同 表示 。 


7.1 控制 流 分 析 的 方法 


对 单一 过 程 进 行 控制 流 分 析 有 两 种 主要 的 途径 ， 它 们 都 从 确定 构成 过 程 的 基本 块 开 始 ， 然 
后 构造 出 它 的 流 图 。 第 一 种 途径 使 用 必 经 结 点 来 找 出 循环 ， 并 为 优化 简单 地 标识 出 它 所 找到 的 
循环 。 这 种 方法 足以 满足 那 种 通过 和 迭代 进行 数据 流 分 析 的 优化 器 的 需要 ， 如 我 们 这 个 例子 在 
8.1 节 所 做 的 优化 ， 或 满足 那 种 其 注意 力 严格 限制 于 例 程 内 的 循环 的 优化 的 需要 。 

第 二 种 途径 称 为 区 间 分 析 ， 它 包括 一 系列 的 方法 ， 这 些 方法 分 析 例 程 的 整个 结构 并 将 它 分 


解 为 称 作 区 间 的 嵌 套 区 域 。 区 间 的 岩 套 结构 形成 了 所 谓 的 控制 树 ， 这 种 控制 树 有 助 于 使 数据 流 . 


分 析 结 构 化 ， 并 提高 其 分 析 速 度 。 区 间 分 析 方 法 的 一 种 最 成 熟 的 变 体 称 为 结构 分 析 ， 它 实质 上 
是 对 例 程 中 的 每 一 种 控制 流 结构 进行 分 类 。 因 为 这 种 方法 十 分 重要 ， 故 我 们 单 辟 一 节 专 门 讲述 
它 。 基 于 区 间 的 数据 流 分 析 方法 统称 为 消去 法 (elimination method), 因为 它们 和 用 于 线性 代 
数 问题 的 高 斯 消去 法 之 间 有 着 显著 的 相似 性 。 

前 类 多 数 优化 第 译 器 使 用 的 是 必 经 结 点 和 选 代数 据 流 分 析 ， 尽 管 这 种 做 法 的 实现 时 间 消 
耗 最 少 ， 并 且 足 以 为 实现 后 面 将 讨论 的 多 数 优化 提供 所 需要 的 信息 ,但 在 如 下 三 个 方面 ， 它 不 
如 基于 区 间 分 析 的 其 他 方法 : 

1. 基于 区 间 的 方法 在 执行 实际 的 数据 流 分 析 时 较 快 ， 尤 其 对 结构 分 析 和 只 使 用 较 简 单 结构 
类 型 的 程序 更 是 如 此 。 

2. 基于 区 间 的 方法 (特别 是 结构 分 析 ) 使 得 为 回应 程序 的 改变 而 更 新 已 经 计算 出 来 的 数据 
流 信息 更 为 容易 (这 种 程序 改变 可 能 是 由 优化 器 所 致 ， 也 可 能 由 编译 器 用 户 所 致 )， 从 而 使 得 
这 些 信 息 不 必 全 部 重新 计算 。 

3. 结构 分 析 使 得 实现 第 18 章 讨论 的 控制 流 变 换 特别 容易 。 

因此 ， 我 们 认为 需要 对 这 三 种 方法 (PERE: 指 基于 必 经 结 点 的 迭代 方法 、 区 间 分 析 、 结 构 分 析 ) 都 
给 予 介 绍 ， 而 让 编译 器 的 实现 者 根据 实现 效果 、 优 化 速度 ， 以 及 所 希望 具有 的 能 力 等 方面 进行 选择 和 组 合 。 

因为 所 有 这 些 方法 都 需要 标识 例 程 的 基本 块 ， 并 构造 它 的 流 图 ， 下 面 我 们 便 讨 论 与 此 有 关 
的 内 容 。 形 式 上 ， 基 本 块 (basic block) 是 一 个 只 能 从 它 的 第 一 条 指令 进入 ， 并 从 最 后 一 条 指 
令 离开 的 最 长 的 指令 序列 。 因此 ， 基 本 块 的 第 一 条 指令 只 可 以 是 1) 例 程 的 人 口 点 ， (2) 分 
支 的 目标 , 或 (3) 直接 紧 跟 在 分 支 指令 或 返回 指令 之 后 的 指令 。 9 这 种 指令 称 为 首领 (leader). 
为 了 确定 组 成 一 个 例 程 的 基本 块 ， 我 们 首先 标识 出 所 有 的 首领 ， 然 后 对 于 每 一 个 首领 ， 依 次 将 
从 该 首领 到 下 一 个 首领 或 例 程 结尾 之 间 的 所 有 指令 包含 在 它 的 基本 块 中 。 

几乎 在 所 有 的 情况 下 ， 上 面 的 方法 都 足以 确定 一 个 过 程 的 基本 块 结构 。 另 一 方面 ， 要 注音 
在 确定 一 个 例 程 中 的 首领 时 , 我 们 并 没有 指明 调用 指令 是 否 应 当 视 为 分 支 指令 。 在 多 数 情况 下 ， 


O 如果 我 们 考虑 的 是 RISC 机 器 指令 而 不 是 中 间 代 码 指令 ， 这 个 定义 就 需要 稍 作 修改 ;如 果 体 系 结构 有 带 延迟 
槽 的 分 支 指令 ， 在 分 支 延 迟 槽 中 的 这 条 指令 可 能 属于 由 其 前 面 这 条 分 支 指令 结束 的 那个 基本 块 ， 也 有 可 能 它 
自己 开始 一 个 新 的 基本 块 ， 如 果 它 是 此 分 支 指令 的 目标 的 话 。 具有 两 个 延迟 槽 的 分 支 指令 (如 MIPS - X) 
使 得 这 个 定义 进一步 复杂 。 我 们 的 中 间 代码 不 包含 这 种 复杂 情况 。 
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调用 指令 不 必 看 成 是 分 支 ， 由 此 产生 的 基本 块 较 长 ， 个 数 也 较 少 ， 这 是 优化 所 希望 的 。 但 是 ， 
如 果 过 程 调用 有 如 Fortran 中 允许 的 那 种 交错 返回 , 则 必须 将 它们 看 成 是 基本 块 的 边界 。 类似 地 ， 
在 C 的 某 些 特殊 情况 下 ， 一 个 调用 也 必须 看 成 是 基本 块 的 边界 。 最 著名 的 例子 是 C 的 
setjmp () 函数 ， 这 个 函数 提供 一 种 粗糙 的 异常 处 理 机 制 。setjmp O 调用 带 来 的 问题 是 ,不 
仅 是 它 自 己 返回 到 它 的 调用 点 之 后 ， 而 且 在 后 续 使 用 异常 处 理 机 制 时 ， 即 调用 1ongJjmp ORT, 
也 将 控制 从 1ongjmp O 被 调用 的 地 方 返回 到 setjmp O 的 返回 点 。 这 要 求 将 setjmp O ) 的 调 
用 看 成 是 基本 块 的 边界 。 并 且 更 槽 糕 的 是 ， 它 导致 在 流 图 中 引入 了 虚假 边 : 一 般 地 ， 一 个 调用 
fsetjmp () 的 例 程 中 的 所 有 其 他 调用 都 需要 播 入 一 条 从 其 返回 点 到 setjmp O 的 返回 点 的 控 
制 流 边 ， 因 为 这 些 调用 有 可 能 由 于 调用 了 1longjmp O 而 将 控制 返回 到 setjmp O 的 返回 点 。 
在 实际 中 ， 一 般 的 做 法 是 不 尝试 对 调用 了 setjmp () 的 例 程 进行 优化 ， 不 过 ， 放 置 一 条 控制 流 
虚假 边 也 是 一 种 选择 (通常 也 是 非常 悲观 的 选择 )。 | 

在 Pascal 中 ， 可 用 goto 语 句 退出 一 个 过 程 ， 并 将 控制 递交 到 静态 包含 该 过 程 的 那个 过 程 内 
带 标 号 的 语句 。 这 种 goto 会 导致 在 那个 包含 过 程 的 流 图 中 产生 类 似 的 额外 的 边 。 不 过 ， 因 为 
这 种 goto 总 是 能 够 通过 由 里 向 外 地 处 理 嵌 套 过 程 而 标识 出 来 ， 因 此 ， 它 们 不 会 导致 像 C 的 
setjmp () 那样 严重 的 问题 。 

有 些 优化 也 希望 将 调用 看 成 具有 与 基本 块 边界 类 似 的 作用 。 有 具体 来 讲 ， 指 令 调度 〈 参 见 第 
17 章 ) 可 能 需要 将 调用 视 作 基本 块 的 边界 ， 以 便 适当 地 填充 延迟 槽 ， 但 同时 又 希望 从 尽 可 能 长 
的 基本 块 得 到 好 处 。 因 此 ， 在 同一 种 优化 中 ， 可 能 既 希 望 将 调用 看 成 是 基本 块 的 边界 ， 同 时 又 
不 希望 它 是 基本 块 的 边界 。 

”标识 了 基本 块 之 后 ， 我 们 用 含有 结 点 集合 和 〔 控 制 流 ) 边 集合 的 有 根 的 有 向 图 ( 自 此 以 后 简 
单 地 称 为 图 ) 来 刻画 过 程 的 控制 流 。 图 中 每 一 个 结 点 代表 一 个 基本 块 ， 外 加 两 个 不 同 的 结 点 ， 称 
为 entry 和 exit 结 点 ， 以 及 一 个 边 集合 。 边 集合 中 的 边 连 接 一 个 基本 块 到 其 他 基本 块 ， 其 方式 与 
原 流程 图 的 控制 流 边 连接 基本 块 最 后 一 条 指令 到 基本 块 的 首领 的 方式 相同 。 此 外 ， 对 于 例 程 中 每 
一 个 初始 基本 块 S9， 我 们 引入 从 entry 到 它 的 一 条 边 ; 对 于 每 一 个 结束 基本 块 ( 即 没 有 后 继 的 基 
本 块 )， 引 入 从 它 到 exit 的 一 条 边 。entry 和 exit 基 本 块 不 是 实质 性 的 ， 引 入 它们 是 出 于 技术 上 
的 原因 一 一 它们 使 得 许多 算法 描述 起 来 更 简单 (参见 13.1.2 节 ， 例 如 ， 在 为 全 局 公共 子 表达 式 删 除 
而 进行 的 数据 流 分 析 中 ， 如 果 不 能 保证 没有 进入 entry 基 本 块 的 边 ， 我 们 就 必须 为 entry 块 初始 
化 不 同 于 其 他 所 有 基本 块 的 信息 ; 在 13.5 节 为 代码 提升 而 进行 的 数据 流 分 析 中 ， 对 于 exi t 也 有 类 
似 的 区 别 )。 由 此 得 到 的 有 向 图 是 过 程 的 流 图 (flowgraph)。 流 图 的 强 连 通 子 图 称 作 区 域 (region). 

在 本 书后 面 的 章节 中 ， 我 们 假定 给 定 一 个 包含 结 点 集合 N 和 边 集合 E CN x N 的 流 图 G = 
<N, E», Kt, entry€N, exit€ NN。 我 们 通常 将 边 写 成 ab， 而 不 是 <a，b>。 

进一步 ， 我 们 用 一 种 明显 的 方式 来 定义 一 个 基本 块 的 后 继 (successor) 基本 块 集合 和 前 驱 
(predecessor) 基本 块 集合 。 分 支 结 点 (branch node) 是 那 种 有 多 个 后 继 的 结 点 ， 汇 合 结 点 
(join node) 是 有 多 个 前 驱 的 结 点 。 我 们 用 Succ (b) 表示 基本 块 be N 的 后 继 集合 ， 用 Pred (b) 
表示 基本 块 b € N 的 前 驱 集 合 。 形 式 上 ， | 

Succ(b) -(ne N|deeE 使 得 e= bon} 

Pred(b) (ne N|3eeE 使 得 e= n>b} 


扩展 基本 块 (extended basic block) 是 从 一 个 首领 开始 的 最 长 指令 序列 ， 在 这 个 指令 序列 
中 ， 除 了 第 一 个 结 点 之 外 不 含 其 他 汇合 结 点 〈 第 一 个 结 点 本 身 不 必 一 定 是 汇合 结 点 ， 例 如 ， 它 


o 年 个 例 程 通常 只 有 一 个 初始 基本 块 。 但 是 ， 某 些 语言 结构 ， 如 Fortran 77 的 多 人 口 点 允许 有 多 个 初始 基本 块 。 
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可 以 是 过 程 和 人 口 结 点 )。 因 为 扩展 基本 块 只 有 一 个 人 口 县 可 能 有 多 个 出 口 ， 所 以 可 以 将 它 看 成 
是 以 它 的 和 人口 基本 块 为 根 的 一 棵 树 。 我 们 在 有 些 上 下 文中 称 以 这 种 方式 构成 的 扩展 基本 块 为 诸 
基本 块 (blocks)。 像 我 们 在 后 面 章 节 将 看 到 的 ， 某 些 局 部 优化 ， 如 指令 调度 (17.135), 在 扩 
展 基 本 块 上 比 在 一 般 基 本 块 上 更 加 有 效 。 在 图 7-4 所 示 的 例子 中 ， 基 本 块 B1、B2 和 B3 构 成 了 一 
个 由 多 个 基本 块 组 成 的 扩展 基本 块 。 

图 7-6 给 出 了 一 个 名 为 Build_Ebb (r, Succ, Pred) 的 ICAN 算 法 ， 该 算法 对 以 r 为 根 的 扩展 
基本 块 ， 构 造 其 内 诸 基 本 块 的 索引 集合 。 图 7-7 中 的 算法 Build_A1l1l_Ebbs(r，Succ，Pred) 对 
以 r 为 入 口 结 点 的 流 图 ， 构 造 它 的 所 有 扩展 基本 块 集合 。 它 设置 A11Ebbs 为 其 每 一 个 偶 对 由 它 
的 根基 本 块 的 索引 和 扩展 基本 块 内 的 诸 基 本 块 的 索引 集合 组 成 的 偶 对 集合 。 这 两 个 算法 都 使 用 
全 局 变量 EbbRoots 记 录 扩 展 基本 块 的 根基 本 块 。 


EbbRoots: set of Node 
AllEbbs: set of (Node x set of Node) 


procedure Build Ebb(r,Succ,Pred) returns set of Node 
r: in Node 
Succ, Pred: in Node —> set of Node 
begin 
Ebb := @: set of Node 
Add, Bbs (r,Ebb,Succ , Pred) 
return Ebb 
end || Build Ebb 


procedure Add Bbs(r,Ebb,Succ,Pred) 


r: in Node 
Ebb: inout set of Node 
Succ, Pred: in Node 一 > set of Node 
begin 
x: Node 
Ebb v= {r} 
for each x € Succ(r) do 
if |Pred(x)| = 1 & x f Ebb then 
Add, Bbs (x, Ebb, Succ , Pred) 
elif x € EbbRoots then 
EbbRoots u= {x} 
fi 
od . 
end || Add. Bbs 


图 7-6 构造 具有 指定 根 结 点 的 扩展 基本 块 内 的 诸 基本 块 集合 的 两 个 例 程 


entry: Node 





procedure Build, All Ebbs(r,Succ,Pred) 
r: in Node 
Succ, Pred: in Node — > set of Node 
begin 


x: Node 

s: Node x set of Node 

EbbRoots := ír) 

AllEbbs := f 

while EbbRoots * 1 do 
x := @ EbbRoots 





图 7-7 构造 给 定 流 图 中 的 所 有 扩展 基本 块 的 例 程 





EbbRoots -= {x} 
if Ys € AllEbbs (s01 * x) then 
AllEbbs v= {<x,Build_Ebb(x,Succ,Pred)>} 


begin 
Build A11 Ebbs(entry,Succ,Pred) 





图 7-7 ( 续 ) 


作为 Build_FEbb () 和 Build_A11_Ebbs () 的 例子 ， 考 虑 图 7-8 中 的 流 图 。 由 该 算法 识别 的 
扩展 基本 块 是 {entry}、{B1，B2，B3}、{B4，B6}、{B5，B7} 和 {exit} ， 如 图 中 虚 框 所 示 。 





图 7-8 用 虚线 框 指出 扩展 基本 块 的 流 图 


类 似 地 ， 反 扩展 基本 块 (reverse extended basic block) 是 以 分 支 结 点 结束 的 ， 且 除 最 后 一 
个 结 点 之 外 不 包含 其 他 分 支 结 点 的 最 长 指令 序列 。 


7.2 深度 为 主 查找 、 前 序 人 遍历 、 后 序 遍 历 和 宽度 为 主 查找 


这 一 节 涉 及 四 个 图 论 的 概念 ， 这 些 概念 对 我 们 后 面 使 用 的 若干 算法 十 分 重要 。 这 四 个 概念 
175 都 适用 于 有 根 的 有 向 图 ， 因 此 也 适用 于 流 图 。 第 一 个 概念 是 深度 为 主 查找 (depth-first search), 
177| ”这 种 查找 在 访问 图 中 的 结 点 时 ， 首 先 访问 的 是 该 结 点 的 后 裔 ， 而 不 是 其 兄弟 ， 只 要 这 个 兄弟 不 
同时 又 是 其 后 裔 。 例 如 ， 图 7-9a 的 深度 为 主 查 找 表示 是 图 b。 用 深度 为 主 查 找 方法 依次 给 每 一 

个 结 点 指定 的 编号 是 结 点 的 深度 为 主编 号 ( depth-first number), 
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a) b) 
图 7-9 a) 一 个 有 根 的 有 向 图 ，b) 图 4 的 深度 为 主 表示 


图 7-10 中 的 算法 用 于 构造 图 的 深度 为 主 表示 。 深 度 为 主 表示 (depth-first presentation). 将 
图 中 所 有 的 结 点 和 那些 构成 深度 为 主 次 序 的 边 表示 为 树 的 形式 〈 称 为 深度 为 主 生成 树 ) (depth- 
first spanning tree)， 并 将 其 他 的 边 一 一 这 些 边 不 是 深度 为 主 次 序 的 一 部 分 一 一 用 一 种 有 别 于 树 
边 的 方式 来 表示 (我们 用 虚线 而 不 是 实 线 表示 它们 )。 属 于 深度 为 主 生成 树 的 边 称 为 树 边 (tree 
edge)， 不 属于 深度 为 主 生成 树 的 那些 边 分 为 三 类 : 前 向 边 (forward edge) 一 一 从 一 个 结 点 到 
一 个 直接 后 裔 并 且 不 是 树 边 的 边 (在 例子 中 我 们 用 “F” 标 识 它 ) ; 后 向 边 (back edge) 一 一 
从 一 个 结 点 到 树 中 它 的 一 个 祖先 的 边 (用 “B” 标识 ) ; 横向 边 (cross edge) 一 一 连接 两 个 在 
树 中 相互 不 是 祖先 的 结 点 的 边 〈 用 “C” 标 识 )。 


N: set of Node 
r, i: Node 
Visit: Node —> boolean 


procedure Depth. First Search(N,Succ,x) 
N: in set of Node 
Succ: in Node —> set of Node 
x: in Node 
begin 
y: Node 
Process, Before(x) 
Visit(x) := true 
for each y € Succ(x) do 
if !Visit(y) then 


Process Succ Before(y) 
Depth First Search(N,Succ,y) 
Process Succ After(y) 
fi 
od 


Process_After (x) 
end || Depth, First Search 


begin 
for each i € N do 
Visit(i) := false 
Oo 
Depth, First Search(N,Succ,r) 
end 


图 7-10 通用 深度 为 主 查找 例 程 
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注意 ， 图 的 深度 为 主 表 示 不 是 惟一 的 。 例 如 ， 图 7-11a 有 图 7-11b 和 c 所 示 的 两 个 不 同 的 深度 
为 主 表示 。 

图 7-10 的 例 程 实现 通用 的 流 图 深度 为 主 查 
找 ， 它 提供 四 个 动作 执行 点 : 


A AL 
N pN 
1. Process, Before () 人 允许 我 们 在 访问 一 B B ` C 
个 结 点 之 前 执行 某 种 动作 ; [UN | 
2. Process_After() 允许 我 们 在 访问 一 P ) C D » C D 

a c 


个 结 点 之 后 执行 某 种 动作 ; 
3. Process, Succ, Before () 人 允许 我 们 在 a a) aR Ane , b) m 
访问 一 个 结 点 的 每 一 个 后 继 之 前 执行 某 种 动作 ; 9 它 的 两 个 深度 为 主 表示 


4. Process_Succ_After () 人 允许 我 们 在 访问 一 个 结 点 的 每 一 个 后 继 之 后 执行 某 种 动作 。 

我 们 需要 的 第 二 个 和 第 三 个 概念 是 有 根 的 有 向 图 中 结 点 的 两 种 遍历 ， 以 及 它们 所 导致 的 图 
结 点 集合 中 结 点 之 间 的 次 序 。 令 G= <N, E, > 是 有 根 的 有 向 图 ， 令 E' cE 是 G 的 深度 为 主 表示 中 
不 包含 反 向 边 的 边 集合 ， 则 图 G 的 前 序 遍 历 (preorder traversal) 是 这 样 一 种 遍历 ， 其 中 每 一 个 
结 点 的 处 理 早 于 其 后 容 ， 后 疹 关 系 由 E' 定义 。 例 如 ，entry、B1、B2、B3、B4、B5、B6、 
exit 是 图 7-4 的 一 种 前 序 遍 历 ， 序 列 entry、Bl1、B3、B2、B4、B6、B5、exit 是 图 7-4 的 另 
一 种 前 序 记 历 。 

假设 G 和 的 定义 如 前 所 述 ， 则 图 G 的 后 序 遍 历 (postorder traversal) 是 这 样 一 种 遍历 ， 其 
中 每 一 个 结 点 的 处 理 晚 于 其 后 商 ， 后 商 关 系 由 EE 定义 。 例 如 ，exit、B5、B6、B4、B3、B2、 
Bl1、entry 是 图 7-4 的 一 种 后 序 遍 历 ， 而 exit、B6、B5、B2、B4、B3、B1、entry 是 另 一 
种 后 序 遍 历 。 

图 7-12 给 出 的 例 程 Depth_first_sSearch_PP () 是 深度 为 主 查找 的 一 种 特定 的 版 本 ， 它 
计算 根 r€ N 的 图 G= «N, E> 的 深度 为 主 生 成 树 ， 以 及 它 的 前 序 遍 历 和 后 序 遍 历 。 在 
Depth_first_Search_PP() 执 行 之 后 ， 由 根 结 点 开始 ， 并 沿 着 Etype (e) =tree 的 边 e 而 
行 ， 便 得 到 深度 为 主 生成 树 。 指 定 给 每 一 个 结 点 的 前 序 编号 和 后 序 编号 是 整数 ， 并 分 别 存 放 在 
Pre() 和 Post () 中。 


N: set of Node 
r, x: Node 

i := 1, j := 1: integer 

Pre, Post: Node —> integer 

Visit: Node —* boolean 

EType: (Node x Node) —> enum ítree,forward,back,cross) 


















procedure Depth First. Search PP(N,Succ,x) 

N: in set of Node 

Succ: in Node 一 > set of Node 

x: in Node 
begin 

y: in Node 

Visit(x) := true 

Pre(x) := j 

j +1 

for each y € Succ(x) do 

if !Visit(y) then 

Depth_First_Search_PP(N,Succ,y) 


图 7-12 计算 深度 为 主 生成 树 及 其 前 序 遍 历 和 后 序 遍 历 
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EType(x — y) := tree 
elif Pre(x) « Pre(y) then 

Etype(x — y) := forward 
elif Post(y) = 0 then 

EType(x > y) := back 
else 

EType(x — y) := cross 
fi 


od 
Post(x) := i 


itt 
end || Depth First Search PP 


begin 
for each x € N do 
Visit(x) := false 
od 
Depth, First, Search, PP(N,Succ,r) 
end 





图 7-12 (#8) 


第 四 个 概念 是 宽度 为 主 查 找 (breadth-first search ) ， 在 这 种 查找 顺序 中 ， 一 个 结 点 的 所 有 
直接 后 裔 的 处 理 早 于 这 些 后裔 的 任何 还 未 处 理 的 后 裔 〈 译 者 注 : 例如 ， 如 果 一 个 结 点 有 两 个 直 
接 后 裔 as 和 b， 其 中 结 点 b 同 时 又 是 结 点 a 的 后 裔 ， 则 a 的 处 理 先 于 b 的 处 理 )。 在 宽度 为 主 查找 中 
结 点 被 访问 的 次 序 是 宽度 为 主 次 序 ( breadth-first order)。 对 于 图 7-9 的 例子 ， 次 序 1、2、6、3、 
4、5、7、8 是 宽度 为 主 次 序 。 

图 7-13 的 ICAN 代 码 当 以 Breadth_First (N， Succ, r) 被 调用 时 ， 它 构造 流 图 中 结 点 
的 宽度 为 主 次 序 。 


2: integer 
procedure Breadth First(N,Succ,s) returns Node 一 > integer 
N: in set of Node 
Succ: in Node —> set of Node 
s: in Node 
begin 
t: Node 
T := Ø: set of Node 
Order: Node 一 > integer 
Order(r) := 1 
for each t € Succ(s) do 


if Order(t) = nil then 
Order(t) := i 
i+=1 
T v- (t) 


fi 
od 
for each t € T do 
Breadth_First(N,Succ,t) 
od 
return Order 
end || Breadth First 





图 7-13 计算 宽度 为 主 次 序 
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7.3 必 经 结 点 和 后 必 经 结 点 


为 了 确定 流 图 中 的 循环 ， 我 们 首先 定义 流 图 中 结 点 之 间 的 一 种 称 为 必 经 结 点 的 二 元 关系 。 
如 果 从 entry 结 点 到 i 的 每 一 条 可 能 的 执行 路 径 都 包含 4， 我 们 说 结 点 d 是 结 点 i 的 必 经 结 点 
(dominator)， 记 作 d dom i。 显 然 ，dom 是 自 反 的 (每 一 个 结 点 是 自己 的 必 经 结 点 )、 传 递 的 (如 
果 a dom b E.P dom c， 则 a dom c) 和 反对 称 的 (如 果 a dom bH. b dom a， 则 b=a)。 我 们 进一步 
定义 称 为 直接 必 经 关系 (immediate dominance) 的 子 关 系 (idom): 对 于 ab，a idom b 当 且 仅 当 a 
dom b 且 不 存在 一 个 ca 并 且 c<b 的 结 点 c<， 使 得 a dom c 且 c dom b。 我 们 记 b 的 直接 必 经 结 点 为 
idom(b)。 显 然 、， 结 点 的 直接 必 经 结 点 是 惟一 的 。 直 接 必 经 结 点 关系 形成 了 流 图 中 结 点 的 一 棵 树 ， 
此 树 的 根 是 entry 结 点 ， 它 的 边 是 直接 必 经 关系 ， 它 的 路 径 显 示 了 所 有 必 经 结 点 关系 。 进 一 步 ， 
我 们 说 d 是 i 的 严格 必 经 结 点 (strictly dominator)， 记 为 d sdom i， 如 果 d dom if8d +i, 

如 果 从 结 点 i 到 结 点 exit 的 每 一 条 可 能 的 执行 路 径 都 包含 结 点 p， 我 们 也 称 结 点 p 是 结 点 的 
后 必 经 结 点 (postdominator)， 记 为 p pdom i， 即 ， 在 逆转 所 有 的 边 ， 并 且 交 换 entry 结 点 和 
exit 结 点 而 得 到 的 流 图 中 ，i dom p。 

我 们 给 出 两 种 计算 流 图 中 每 一 个 结 点 的 必 经 结 点 集合 的 方法 。 第 一 种 方法 的 基本 思想 是 ， 
结 点 a 是 结 点 b 的 必 经 结 点 ， 当 且 仅 当 a =b; 或 者 a 是 b 的 惟一 直接 前 驱 ， 或 者 bp 有 多 个 直接 前 驱 
并 且 对 于 5b 的 所 有 直接 前 驱 <， 有 ca 且 a 是 c 的 必 经 结 点 。 对 应 的 算法 是 图 7-14 给 出 的 
Dom_Comp () ， 它 存储 结 点 i 的 所 有 必 经 结 点 集合 于 Domin (i) 。 如 果 有 星 号 标志 的 那个 for 循 
环 按 深度 为 主 次 序 来 处 理 流 图 的 结 点 ， 则 该 算法 具有 最 好 的 效率 。 


procedure Dom Comp(N,Pred,r) returns Node —> set of Node 
N: in set of Node 
Pred: in Node —> set of Node 
r: in Node 
begin 
D, T: set of Node 
n, p: Node 
change := true: boolean 
Domin: Node —> set of Node 
Domin(r) := ír) 
for each n € N - ír) do 
Domin(n) := N 
od 
repeat 
Change :- false 
for each n € N - ír) do 
T :=N 
for each p € Pred(n) do 
T ^= Domin(p) 
od 
D := {n} UT 
if D * Domin(n) then 
Change := true 
Domin(n) := D 
fi 
od 
until !change 
return Domin 
end || Dom Comp 





图 7-14 一 个 计算 流 图 中 每 一 个 结 点 的 所 有 必 经 结 点 的 简单 算法 
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作为 使 用 Dom_comp O 的 例子 ， 我 们 将 它 应 用 到 图 7-4 中 的 流 图 。 该 算法 首先 初始 化 
change=ture, Domin (entry) = {entry}， 且 对 每 一 个 非 entry 结 点 的 结 点 工 ， 
domin (i)={entry，B1，B2，B3，B4，B5，B6，exit}。 然 后 它 进 入 repeat 循 环 ， 设 
置 change = false， 并 进入 其 中 的 for 循 环 。 这 个 for 循 环 设置 hn ==Bl1, T={entry, B1, 
B2, B3, B4, B5, B6, exit), 之 后 进入 内 层 for 循 环 。 内 层 for 循 环 设置 p = 
entry (Pred (B1) 的 惟一 成 员 )， 因 此 设置 T= {entry}。 之 后 ， 内 层 for 循 环 终止 ，D 被 设 
Hojientry, Bl}, changeJjtrue, 以 及 Domin(B1) = {entry，B1)。 接 下 来 ， 外 层 
for 循 环 设置 n=B2, T={entry, Bl1，B2，B3，B4，B5，B6，exit}， 并 再 次 进入 内 屋 
for 循 环 。 因 为 Pred (B2) = {Bl1)， 内 层 循 环 设置 7 为 {entry，B1}。 于 是 D 被 设置 为 
(entry,B1, B2), 有 Domin(B2)={entry，B1，B2}。 继 续 这 一 过 程 得 到 下 面 的 结果 : 


i Domin(i) 

entry {entry} 

Bi {entry,B1} 

B2 {entry,B1,B2} 

B3 {entry,B1,B3} 

B4 {entry,B1,B3,B4} 

B5 (entry,B1,B3,B4,B5) 
B6 (entry,B1,B3,B4,B6) 
exit {entry,B1, exit} 


如 果 需 要 每 一 个 结 点 的 直接 必 经 结 点 ， 可 以 用 图 7-15 给 出 的 例 程 来 计算 它 。 同 前 面 的 算法 
一 样 ， 使 标 有 星 号 的 Eor 循 环 按 深度 为 主 次 序 来 处 理 流 图 的 结 点 ， 则 该 例 程 可 以 达到 最 好 的 效 
率 。 这 个 算法 也 可 以 用 位 向 量 表示 的 集合 来 实现 ， 并 且 具 有 可 接受 的 效率 : 对 于 有 n 个 结 点 和 e 
条 边 的 流 图 ， 其 运行 时 间 是 On e)。 实 质 上 ， 这 个 算法 首先 设置 Tmp (i) ADomin (i) - {i}, 
然后 对 每 一 个 结 点 检查 Tmp (i) 中 的 成 员 是 否 是 除 自己 之 外 的 其 他 结 点 的 必 经 结 点 ， 如 果 是 ， 
则 从 Tmp (i) 中 去 掉 它 们 。 作 为 使 用 Iaom_comp O 的 例子 ， 我 们 将 它 应 用 到 前 面 已 计算 出 来 的 
图 7-4 所 示 流 图 的 必 经 结 点 集合 。 此 算法 首先 初始 化 Tmp O 数组 如 下 : 


i Tmp (i) 

entry 9 

Bi {entry} 

B2 {entry ,B1} 

B3 {entry ,B1} 

B4 {entry ,B1,B3} 

B5 (entry,B1,B3,B4) 
B6 {entry ,B1,B3,B4} 
exit {entry ,B1} 


随后 它 设置 n=B1，s =entry， 并 发 现 Tmp (B1) - {entry}=$， 因此 Tmp (B1) 保 持 不 变 。 然 
后 它 设置 hn =B2。 因 为 s=entry，Tmp (entry) 为 空 ， 所 以 ，Tmp (B2) 没 有 改变 。 另 一 方 
面 ， 因 为 s=B1，Tmp (B1) 是 {tentry}， 于 是 entry 被 从 Tmp (B2) 中 删除 ， 留 下 Tmp (B2) = 
(B1), ， 如 此 继续 下 去 ， 得 到 Tmp ( ) 的 最 终 值 如 下 : 





i Tmp (i) 
entry 9 

B1 {entry} 
B2 {Bi} 

B3 (B1) 

B4 {B3} 
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B5 (B4) 
B6 (B4) 
exit (B1) 


Idom_comp 在 返回 之 前 的 最 后 一 个 动作 是 ， 对 于 nz#*r， 设 置 集合 Idaom (n) ATmp (1) 的 一 个 元 
素 。 





procedure Idom Comp(N,Domin,r) returns Node —> Node 
N: in set of Node 
Domin: in Node —> set of Node 
r: in Node 
begin 
n, S, t: Node 
Tmp: Node —* set of Node 
Idom: Node —> Node 
for each n € N do 
Tmp(n) := Domin(n) - ín) 
od . 
* for each n € N - {r} do 
for each s € Tmp(n) do 
for each t € Tmp(n) - {s} do 
if t € Tmp(s) then 
Tmp(n) -= {t} 
























fi 
od 
od 
od 
for each n € N - {r} do 
Idom(n) := eTmp(n) 
od 
return Idom 
end || Idom, Comp 


图 7-15 计算 直接 必 经 结 点 ， 给 出 必 经 结 点 集合 


第 二 种 计算 必 经 结 点 的 方法 是 由 Lengauer 和 Tarjan [LenT79] 发 明 的 。 它 比 第 一 种 方法 要 复 
杂 ， 但 除了 最 小 流 图 之 外 ， 对 所 有 流 图 它 的 运行 速度 都 要 快 得 多 。 

注意 ， 对 于 有 根 的 有 向 图 <N, E, r>， 如 果 v=w， 或 者 在 图 的 深度 为 主 生成 树 中 存在 一 条 从 
vy 到 w 的 路 径 则 结 点 v 是 结 点 w 的 祖先 (ancestor)。 如 果 v 是 w 的 祖先 且 v*w， 则 v 是 w 的 固有 祖先 
(proper ancestor)。 另 外 ， 我 们 用 Dfn(v) 表示 结 点 v 的 深度 为 主编 号 。 

算法 Domin_Fast () 在 图 7-16 中 给 出 ， 图 7-17 和 图 7-18 是 两 个 辅助 例 程 。 已 知 一 个 流 图 和 
它 的 函数 Succ0 和 PredO ， 该 算法 最 终 存 储 每 一 个 v* 7 的 结 点 的 直接 必 经 结 点 于 Jaom (v) m. 
Label, Parent, Ancestor, Child: Node 一 > Node 
Ndfs: integer 一 > Node 
Dfn, Sdno, Size: Node 一 > integer 


n: integer 
Succ, Pred, Bucket: Node —> set of Node 













procedure Domin, Fast (N,r,Idom) 
N: in set of Node 
r: in Node 
Idom: out Node —> Node 
begin 


图 7-16 更 复杂 但 也 更 有 效 的 计算 必 经 结 点 的 方法 
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u, v, w: Node 
i: integer 
|| initialize data structures and perform depth-first search 
for each v EN u (n0) do 
Bucket(v) := 
Sdno(v) := 0 


ø 


od 
Size(n0) := Sdno(n0) := 0 
Ancestor (n0) := Label(n0) := nO 
n:-0 
Depth First Search, Dom(r) 
*1 for i :- n by -1 to 2 do 
|| compute initial values for semidominators and store 
|| nodes with the same semidominator in the same bucket 
w := Ndfs(i) 
for each v € Pred(w) do 
u := Eval(v) 
if Sdno(u) « Sdno(w) then 
Sdno(w) := Sdno(u) 
fi 
od 
Bucket(Ndfs(Sdno(w))) v= {w} 
Link (Parent (w) ,w) 
|| compute immediate dominators for nodes in the bucket 
|| of w's parent 
while Bucket (Parent(w)) * Ø do 
v := Bucket (Parent (w)); Bucket (Parent (w)) -= (v) 
u := Eval(v) 
if Sdno(u) < Sdno(v) then 
Idom(v) := u 
else 
Idom(v) := Parent (vw) 
fi 
od 


adjust immediate dominators of nodes whose current version of 
the immediate dominator differs from the node with the depth-first 
number of the node’s semidominator 
for i :- 2 to n do 
w := Ndfs(i) 
if Idom(w) * Ndfs(Sdno(w)) then 
Idom(w) := Idom(Idom(w)) 
fi 


|| Domin Fast 





图 7-16 (£X) 


procedure Depth First Search Dom(v) 
v: in Node 

begin 
w: Node 


|| perform depth-first search and initialize data structures 
Sdno(v) := n += 1 

Ndfs(n) := Label(v) 

Ancestor(v) := Child(v) := nO 





图 7-17 计算 必 经 结 点 时 使 用 的 深度 为 主 查 找 和 路 径 压 缩 算法 
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Size(v) : 
for each w € Succ(v) do 
if Sdno(w) = O then 
Parent(w) := 
Depth First Search Dom(w) 
fi 
od 
end || Depth. First, Search Dom 


procedure Compress(v) 
v: in Node 
begin 
|| compress ancestor path to node v to the node whose 
|! label has the maximal semidominator number 
if Ancestor(Ancestor(v)) * nO then 
Compress (Ancestor(v)) 
if Sdno(Label(Ancestor(v))) « Sdno(Label(v)) then 
Label(v) := Label(Ancestor(v)) 
fi 
Ancestor(v) := Ancestor(Ancestor(v)) 
fi 
end |! Compress 





图 7-17 (4) 


procedure Eval(v) returns Node 
v: in Node 
begin 
||! determine the ancestor of v whose semidominator 
|i has the minimal depth-first number 
if Ancestor(v) = nO then 
return Label(v) 
else 
Compress(v) 
if Sdno(Label(Ancestor(v))) 2 Sdno(Label(v)) then 
return Label(v) 
else 
return Label(Ancestor(v)) 
fi 
fi 
end || Eval 






























procedure Link(v,w) 
v, w: in Node 
begin 
s := w, tmp: Node 
{| rebalance the forest of trees maintained 
|| by the Child and Ancestor data structures 
while Sdno(Label(w)) < Sdno(Label(Child(s))) do 
if Size(s) + Size(Child(Child(s))) 
2 2*Size(Child(s)) then 
Ancestor(Child(s)) := s 
Child(s) := Child(Child(s)) 
else 
Size(Child(s)) := Size(s) 
s := Ancestor(s) := Child(s) 
fi 


图 7-18 计算 必 经 结 点 时 使 用 的 标号 计算 和 链接 算法 


£7* 
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od 
Label(s) := Label(w) 
Size(v) *- Size(w) 
if Size(v) « 2*Size(w) then 
tmp := 8 
s := Child(v) 


Child(v) := tmp 
fi 
while s * nO do 
Ancestor(s) := v 
s := Child(s) 
od 
end || Link 





图 7-18  (f&) 


这 个 算法 首先 对 一 些 数据 结构 进行 初始 化 〈 后 面 将 讨论 这 些 数据 结构 )， 然 后 对 图 执行 深度 为 
主 查找 ， 并 给 经 过 的 每 一 个 结 点 一 个 编号 ， 这 个 编号 即 深度 为 主 次 序 。 它 使 用 了 一 个 结 点 n0 € N. 

接 下 来 它 对 每 一 个 结 点 w* r， 计 算 w 的 所 谓 半 必 经 结 点 ， 并 设置 Sdno(w) 为 此 半 必 经 结 点 的 
深度 为 主编 号 。w*r 的 结 点 w 的 半 必 经 结 点 (semidominator) 是 满足 这 种 条 件 的 共有 最 小 深度 
为 主编 号 的 结 点 v， 这 个 条 件 即 ， 存 在 着 一 条 从 v= 二 ww 到 w=v 的 路 径 ， 比 如 说 ，v。 一 vis s 
一 vy;,， 使 得 对 于 1 <i<k~1, Dfn(v) < Dfn(w). 

深度 为 主 次 序 和 半 必 经 结 点 有 下 面 若干 有 用 的 性 质 : 

1. 对 于 有 根 的 有 向 图 中 满足 Dfn(y) < Dfn(w) 的 任意 两 个 结 点 v 和 w， 在 该 流 图 的 深度 为 主 生 
成 树 中 ， 和 任何 从 v 到 w 的 路 径 必 定 包含 v 和 w 的 一 个 公共 祖先 。 图 7-19 说 明了 满足 Dfn(v) < Dfn(w) 
的 v 和 w 的 关系 ， 其 中 w 可 以 位 于 v、‘a、 
b 或 任意 一 个 位 置 ，b 是 v 的 祖先 wu 的 一 
个 满足 Dfn(b)> Dfn(v) KR. FAA 
箭头 指出 可 能 为 空 的 路 径 ， 虚 线 箭头 
表示 非 空 路 径 。 如 果 w =v 或 w=a， 则 Y 


> Vk-1 


/ 
D 4--- 9 


VERBAL. AWM, ue SHAE. 
2. XP FE — tw = HE Aw, w 

的 半 必 经 结 点 是 w 的 固有 祖先 ，w 的 直 

接 必 经 结 点 是 它 的 半 必 经 结 点 的 祖先 。 
3. 令 E' 表 示 E 中 用 每 一 个 结 点 的 半 


图 7-19 对 于 满足 Dfn(v)< Dfn(w) 的 v 和 w，w 可 以 位 于 
v、a、bb 或 c 任 意 一 个 位 置 ， 其 中 4b 是 x 的 某 个 后 背 ， 
且 它 在 "的 所 有 树 中 的 后 高 被 访问 之 后 
才 被 访问 。 带 点 的 箭头 指出 可 能 为 
空 的 路 径 ， 虚 线 箭头 表示 非 空 路 径 





必 经 结 点 到 该 结 点 本 身 的 边 替代 非 树 
边 得 到 的 边 集合 , 则 <N, E", ~ 中 结 点 的 必 经 结 点 与 <N, E, > 中 的 必 经 结 点 相同 。 

4.4 

Viw) = (Dfn(v)| v ^ w € EHB.Dfn(v)«Dfn(w)) 
A 

S(w) = (Sdno(u) | Dfn(u)> Dfn(w) 且 对 于 某 个 vEN, voweE 

并 且 存在 一 条 从 x 到 ve E 的 路 径 } 

则 ，w 的 半 必 经 结 点 是 具有 深度 为 主编 号 min(V(w) U S(w)) 的 结 点 。 

注意 ， 我 们 没有 实际 地 计算 每 一 个 结 点 v 的 半 必 经 结 点 ， 而 只 是 计算 了 它 的 深度 为 主编 号 
Sdno(v). 
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对 每 一 个 非 根 结 点 计算 了 Sdno(y) 之 后 ， 该 算法 隐 式 地 确定 它 的 直接 必 经 结 点 如 下 : Su 
是 这 样 一 个 结 点 ， 它 的 半 必 经 结 点 w 是 满足 如 下 条 件 的 结 点 x 中 具有 最 小 深度 为 主编 号 的 结 
点 : 在 深度 为 主 生成 树 上 存在 着 一 条 从 w 到 x 的 非 空 路 径 和 一 条 从 zx 到 v 的 路 径 。 如 果 Sdnro(v) 
= Sdno(u)， 则 v 的 直接 必 经 结 点 Idom(v) 是 v 的 半 必 经 结 点 ; 否则 ，v 的 直接 必 经 结 点 1dom(v) 
是 ldom(u)。 

最 后 ， 访 算法 按 深 度 为 主 次 序 依次 处 理 每 一 个 结 点 ， 对 每 一 个 v 显 式 地 设置 ldom(v)。 

算法 中 使 用 的 主要 数据 结构 如 下 : 

1. Nafs (i) 是 深度 为 主编 号 为 的 结 点 。 
Succ (vy) 是 结 点 v 的 后 继 集 。 
Pred (v) 是 结 点 v 的 前 驱 集 。 
Parent (v) 是 结 点 v 在 深度 为 主 生成 树 中 的 父 结 点 。 
Sdno(v) 是 结 点 v 的 半 必 经 结 点 的 深度 为 主编 号 。 
Idom(y) 是 结 点 v 的 直接 必 经 结 点 。 
Bucket(v) 是 其 半 必 经 结 点 是 NGfs(v) 的 那些 结 点 的 集合 。 

例 程 Link () 和 Eval () 管 理 一 个 辅助 数据 结构 ， 即 ， 由 深度 为 主 生成 树 构成 的 树林 ， 它 
用 于 追踪 已 处 理 过 的 结 点 。Bval ( ) 使 用 Compress ( ) 对 从 函数 Ancestor () (参见 下 面 的 描 
R) 导出 的 结 点 到 深度 为 主 生成 树 的 树 根 的 路 径 执行 路 径 压缩 。 它 由 两 个 数据 结构 组 成 ， 即 ， 

1. Ancestor (vy) 是 v 的 祖先 ， 如 果 v 在 树林 中 ; 或 者 是 n0， 如 果 v 是 树林 中 一 棵 树 
的 根 ; 

2. Label (v) 是 v 的 祖先 链 中 其 半 必 经 结 点 的 深度 为 主编 号 最 小 的 一 个 结 点 。 
最 后 ，child (v) 和 Size (v) 是 用 来 使 树林 中 的 树 保持 平衡 ， 并 使 算法 时 间 达 到 时 间 下 界 的 两 
个 数据 结构 。 利 用 平衡 树 和 路 径 压 缩 ， 这 种 必 经 结 点 查找 算法 的 运行 时 间 界 是 Ole - oe, n), 
其 中 ，n 和 e 分 别 是 图 中 结 点 的 个 数 和 边 的 条 数 ，w 0 是 一 个 增长 非常 缓慢 的 函数 一 一 实质 上 是 
Ackermann 函 数 的 一 个 逆 函 数 。 如 果 不 使 用 平衡 树 ，Link () 和 Eval () 函数 是 相当 简单 的 ， 但 
运行 时 间 是 O (e - log n). 

关于 这 个 算法 是 如 何 工作 的 更 为 详细 的 细节 ， 参 见 Lengauer 和 Tarjan 的 论文 [LenT79]。 

作为 使 用 Domin_Fast () 算法 的 例子 ， 我 们 将 它 应 用 到 图 7-4 中 的 流 图 。 

在 Domin_Fast () 对 Depth_First_Search_pDom() 的 调用 已 经 返回 时 ( 即 ， 图 7-16 中 
*1 标 志 点 )，Ndfs () 、Sdom() 和 Idom() 的 值 如 下 所 示 : 


rawr YN 


j Ndfs(j) Sdno (Ndfs(j)) Idom(Ndfs(j)) 
1 entry 1 nO 
2 Bi 2 nO 
3 B2 3 nO 
4 exit 4 nO 
5 B3 5 nO 
6 B4 6 nd 
7 BS 了 nod 
8 B6 8 nO 


接着 我 们 给 出 在 标志 *2 处 由 上 面 列 出 的 值 变 化 而 来 的 一 系列 的 快照 值 。 对 于 i = 8， 有 变化 的 
行 是 : 

j  Ndfs(j — Sdno(Ndfs(j) Idom(Ndfs(j)) 

8 BE 8 B5 
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对 于 i =7，、 有 变化 的 行 是 : 
j 


7 
8 


对 于 i =6， 有 变化 的 行 是 : 
j 
6 
7 


对 于 i =5， 有 变化 的 行 是 : 


J 


5 
6 


对 于 i =4， 有 变化 的 行 是 : 
j 
4 
5 


对 于 i =3， 有 变化 的 行 是 : 
j 


3 
4 


对 于 i =2， 有 变化 的 行 是 : 
j 


2 
3 


Ndfs(j) 


B5 
B6 


Ndfs(j) 


B4 
B5 


Ndfs(j) 


B3 
B4 


Ndfs(j) 


exit 
B3 


Ndfs(j) 


B2 
exit 


Ndfs(j) 


B1 
B2 


Sdno(Ndfs(j)) 


6 
8 


Sdno(Ndfs(j)) 


5 
6 


Sdno(Ndfs(j)) 


2 
5 


Sdno (Ndfs(j)) 


| 2 


2 


Sdno(Ndfs(j)) 


3 
2 


Sdno(Ndfs(j)) 


2 
2 


f£Domin Fast () 的 *3 和 *4 之 处 ， 所 有 结 点 的 值 如 下 : 


j 


ON On WN BE 


Ndfs(j) 


Sdno (Ndfs(j)) 


Aannnnd Ke 


并 且 Idqom () 的 值 与 第 一 种 方法 计算 出 来 的 值 相同 。 
Alstrup 和 Lauridsen [AlsL96] 描 述 了 一 种 随 过 程控 制 流 的 修改 而 增 量 式 地 更 新 必 经 结 点 树 的 
技术 。 他 们 的 技术 第 一 次 使 得 增 量 式 地 更 新 必 经 结 点 树 的 计算 复杂 性 优 于 重新 构造 必 经 结 点 树 


的 计算 复杂 性 。 


7.4 循环 和 强 连通 分 量 
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Idom(Ndfs(j)) 


no 
B4 


Idom(Ndfs(j)) 


nO 
B4 


Idom(Ndfs(j)) 


nO 
B3 


Idom(Ndfs(j)) 


nd 
B1 


Idom (Ndfs(j)) 


nO 
nd 


Idom(Ndfs(j)) 


nd 
Bi 


Idom(Ndfs(j)) 


下 面 ， 我 们 定义 流 图 中 的 回 边 (back edge) 为 其 头 是 其 尾 的 必 有 经 结 点 的 边 。 注意， 这 里 定 





义 的 回 边 的 概念 比 7.2 节 定义 的 后 向 边 更 为 严格 S 。 例 如 ， 对 于 图 7-20a 的 有 根 的 有 向 图 ， 它 的 
一 种 深度 为 主 表示 如 图 7-20b 所 示 ， 此 图 有 一 条 从 a 

d 到 c 且 c 不 是 d 的 必 经 结 点 的 后 向 边 。 尽 管 这 条 边 
定义 了 一 个 循环 ， 但 该 循环 有 两 个 进入 点 (c 和 d)， 
因此 ， 它 不 是 一 个 自然 循环 。 


b 
已 知 一 条 回 边 mn，m 一 n 的 自然 循环 (natural 
loop) 是 流 图 中 由 满足 如 下 条 件 的 结 点 集合 和 边 集 L> * 


合 组 成 的 子 图 : Kh, SARA HE ARR | 
中 那些 从 它们 可 以 到 达 m 但 不 经 过 n 的 所 有 结 点 组 : 
成 ， 边 集合 由 所 有 连接 其 结 点 集合 中 结 点 的 边 组 e 
HE. Se Anke eH H5. (loop header)。 我 们 可 以 a) b) 

用 图 7-21 中 的 算法 Nat_Loop () 构造 m 一 n 的 自然 图 7-20 a) 有 根 的 有 向 图 ，b) 它 的 深度 为 主 表 示 
循环 的 结 点 集合 。 已 知 一 个 图 和 回 边 ， 这 个 算法 存储 循环 的 结 点 集合 于 Loop。 如 果 需 要 ， 从 
它 不 难 计算 出 循环 的 边 集合 。 


procedure Nat.Loop(m,n,Pred) returns set of Node 
m, n: in Node 
Pred: in Node —> set of Node 
begin 
Loop: set of Node 
Stack: sequence of Node 
p, q: Node 
Stack := [] 
Loop := (m,n) 
if m * n then 
Stack @= [m] 
fi 
while Stack * [] do 
|| add predecessors of m that are not predecessors of n 
l| to the set of nodes in the loop; since n dominates m, 
|| this only adds nodes in the loop 
p := Stackl-1i 
` Stack e= -1 
for each q € Pred(p) do 
if q f Loop then 
Loop us {q} 
Stack e= [q] 
fi 





























od 
od 
return Loop 
end 1 | Nat_Loop 





图 7-21 计算 回 边 m ~ n 的 自然 循环 


我 们 考虑 的 许多 优化 都 需要 从 循环 内 外 提 代 码 到 循环 的 首 结 点 之 前 。 为 了 保证 有 一 个 统一 
的 地 方 存放 这 种 外 提 的 代码 ， 我 们 引入 前 置 结 点 的 概念 。 御 环 前 置 结 点 (loop preheader) 是 在 


循环 首 结 点 前 面 建立 的 一 个 新 的 基本 块 (初始 为 空 )， 原 来 从 循环 外 进入 循环 首 结 点 的 所 有 边 


O EXPRIMER “back edge"， 为 了 区 别 它 们 ， 我 们 将 基于 必 经 结 点 的 “back edge" WX "Ina", 将 
”7.2 节 小 与 “forward edge” 相 对 应 的 “back edge” 详 为 “后 向 边 "。 一 一 译 者 注 
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改 成 引 向 前 置 结 点 ， 并 且 从 循环 前 置 结 点 有 一 条 新 的 边 引 向 循环 首 结 点 。 图 7-22b 给 出 了 对 
图 7-22a 中 的 循环 引入 循环 前 置 结 点 后 的 结果 。 





| Bi | [La 
| 83 | [2 J| | Le] 
a) b) 
图 7-22 a) 没有 前 置 结 点 的 循环 ， 图 7-23 具有 相同 循环 首 结 点 
b) 有 前 置 结 点 的 循环 B1 的 两 个 自然 循环 


不 难看 出 ， 若 两 个 自然 循环 具有 同一 个 首 结 点 ， 则 它们 要 么 不 相交 ， 要 么 一 个 嵌 套 在 
另 一 个 之 中 。 另 一 方面 ， 给 定 两 个 具有 相同 首 结 点 的 循环 ， 如 图 7-23 所 示 ， 常 常 不 能 清楚 
地 区 别 出 它们 是 否 一 个 嵌 套 在 另 一 个 之 中 〈 如 果 是 嵌 套 的 话 ， 也 难于 区 分 谁 嵌 套 了 谁 )， 
也 难于 区 分 它们 构成 的 是 否 就 是 一 个 循环 。 如 果 它 们 是 由 图 7-24a 中 的 代码 产生 的 ， 显 然 左 
边 的 循环 是 内 层 循 环 ; 另 一 方面 ， 如 果 它 们 是 图 7-24b 中 的 代码 产生 的 ， 它 们 则 更 可 能 是 
一 起 构成 一 个 循环 。 不 知道 源 代码 的 更 多 信息 ， 我 们 就 不 能 区 别 这 两 种 情况 。 对 这 种 情形 
有 所 了 解 后 ， 本 节 将 这 种 情形 视 为 组 成 单个 循环 的 循环 来 处 理 〈7.7 节 讨论 的 结构 分 析 将 区 
别 对 待 它们 )。 
i= 1; 
: if (i >= 100) 
goto b4; 
else if ((i % 10) == 0) 


goto B3; 
else 


: if (i < j) 
goto B2; 
else if (i > j) 
goto B3; 
else goto B4; 
wee i++; . 
i++; goto B1; 
goto B1; 


e i--; 
i++; goto B1; 
goto Bi; MM 





a) b) 
图 7-24 同样 产生 图 7-23 流 图 的 两 段 不 同 的 C 代 码 序 列 


自然 循环 只 是 流 图 的 强 连通 分 量 中 的 一 种 类 型 。 可 能 存在 有 多 个 循环 入 口 结 点 的 其 他 循环 
结构 ， 如 7.5 节 将 看 到 的 那样 。 尽 管 这 种 多 个 入口 结 点 的 循环 在 实际 中 很 少见 ， 但 它们 确实 存 
在 ， 因 此 ， 我 们 必须 考虑 它们 。 

可 能 出 现 的 循环 结构 中 最 普通 的 是 流 图 的 强 连通 分 量 (SCC)， 它 是 一 个 子 图 Cs= «NS Es, 
其 中 入 的 每 一 个 结 点 都 可 以 通过 仅 属 于 Bs 的 边 组 成 的 通路 到 达 另 外 的 每 一 个 结 点 。 
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对 于 一 个 强 连通 分 量 ， 如 果 每 一 个 包含 它 的 强 连 通 分 量 就 是 它 本 身 ， 则 称 这 个 强 连通 分 量 


是 极 大 的 (maximal)。 作 为 一 个 例子 ， 考 虑 图 7-25 中 
的 流 图 。 由 B1、B2 和 B3 以 及 连接 它们 的 边 组 成 的 子 
图 构成 了 一 个 极 大 强 连通 分 量 ， 而 由 结 点 B2 和 边 B2 
一 B2 组 成 的 子 图 是 一 个 强 连 通 分 量 ， 但 不 是 极 大 强 
连通 分 量 。 

图 7-26 中 的 算法 Strong_components (r, 
Succ) 给 出 了 计算 入 口 结 点 为 r 的 流 图 的 所 有 极 大 
SCC 方 法 。 这 是 Tarjan 算 法 的 一 个 版 本 ， 它 计算 
SCC 需 要 的 时 间 与 流 图 的 结 点 数 和 边 数 成 正比 。 国 
数 Dfn: Node -integer 是 N 中 结 点 的 深度 为 主 
次 序 。 


N: set of Node 

NextDfn: integer 

All SCC: set of set of Node 
LowLink, Dfn: Node —> integer 
Stack: sequence of Node 


procedure Strong Components (x, Succ) 
x: in Node 
Succ: in Node —> set of Node 
begin . 
i: integer 
y. z: Node 
SCC: set of Node 
LowLink(x) := Dfn(x) 
Stack e- [x] 
for each y € Succ(x) do 
. if Dfn(y) = 0 then 


Strong Components(y,Succ) 
:= min(LowLink(x) ,LowLink(y)) 


LowLink(x) 





图 7-25 具有 两 个 强 连 通 分 量 的 流 图 ， 其 中 
一 个 是 极 大 强 连 通 分 量 ， 另 一 个 不 是 


:= NextDfn += 1 


elif Dfn(y) < Dfn(x) & 3i € integer (y = Stackli) then 


LowLink(x) 
fi 
od 
if LowLink(x) = Dfn(x) then 
SCC := @ 
while Stack * [] do 
2 := Stacki-1 
if Dfn(z) « Dfn(x) then 
All SCC us (SCC) 
return 
fi 
Stack e- -1 
SCC u= (z) 
od 
A11.SCC v= {SCC} 
fi 
|| Strong Components 


begin 
x: Node 





:= min(LowLink(x),Dfn(y)) 


{| x is the root of an SCC 


图 7-26 强 连通 分 量 的 计算 ' 
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for each x € N do 
Dfn(x) := LowLink(x) := 0 


od 
NextDfn := 0; Stack := [] 
All SCC := ø 
for each x EN do 
if Dfn(x) = 0 then 
t Strong Components (x,Succ) 
i 
od 
All.SCC v= {{Stack41}} 
end 





图 7-26 (#8) 


这 个 算法 的 思想 如 下 : 对 于 SCC 中 的 任意 一 个 结 点 %， 令 LowLink (a) 是 SCC 中 满足 如 下 
条 件 的 任意 结 点 m 的 最 小 前 序 编号 ; 在 SCC 的 包含 图 的 深度 为 主 生成 树 上 存在 着 一 条 从 nn 到 m 的 
路 径 ， 且 在 此 路 径 上 至 多 只 有 一 条 后 向 边 或 横向 边 。 令 LL (n) 是 具有 前 序 编号 LowLink (n) 的 
f£. Anoftn, nu 是 LL (ni) 。 最 终 我 们 必定 有 ，、 对 于 某 个 i，n;,1=n;; 称 这 个 结 点 为 
LLend (n). Tarjanu£BH T LLend (n) 是 包含 4 的 极 大 SCC 中 具有 最 小 前 序 编号 的 结 点 ， 因 此 它 
是 其 结 点 集合 由 包含 r 的 SCC 的 结 点 组 成 的 图 的 给 定 深 度 为 主 生成 树 的 根 。 对 每 一 个 "独立 地 计 
算 LLend (n) 需要 的 时 间 可 能 超过 线性 时 间 ; Tarjan 对 这 个 方法 进行 了 修改 ， 通 过 计算 
LowLink (n) ， 然 后 用 它 来 确定 满足 n=LL (n) 的 那些 结 点 x*， 并 由 此 得 到 n=LLend (n) ， 从 
而 使 得 算法 能 在 线性 时 间 内 工作 。 


7.5 可 归 约 性 


可 归 约 性 是 流 图 的 一 个 非常 重要 的 性 质 ， 并 且 可 能 也 是 一 个 取 名 最 不 恰当 的 术语 。 术 语 可 
归 约 (reducible) 起 源 于 作用 于 流 图 的 若干 种 变换 ， 这 些 变换 将 子 图 暗 化 为 单个 结 点 ， 由 此 连 
续 地 “ 归 约 ” 流 图 到 更 简单 的 若干 子 图 。 如 果 一 系列 的 这 种 转换 能 够 最 终 将 流 图 归 约 为 单个 结 
点 ， 则 称 这 个 流 图 是 可 归 约 的 。 一 个 更 适合 的 叫 法 应 当 是 结构 良好 的 〈well-structured) ， 而 且 
我 们 使 用 的 这 个 可 归 约 性 的 定义 其 概念 更 清楚 一 些 。 但 由 于 历史 习惯 的 影响 ， 我 们 也 交替 地 使 
用 术语 “可 归 约 ”。 流 图 G =<N, E> 是 可 归 约 的 或 结构 良好 的 ， 当 且 仅 当 E 可 以 划分 为 不 相交 的 
前 向 边 集合 Es 和 后 向 边 集合 Es， 使 得 <N, E> 形成 一 个 从 入 口 结 点 可 到 达 其 中 每 一 个 结 点 的 
DAG, 并且 Es 中 的 边 都 是 7.4 节 定义 的 回 边 。 另 一 种 说 法 是 ， 如 果 流 图 是 可 归 约 的 ， 则 在 此 流 
图 中 的 所 有 循环 都 是 由 它们 的 回 边 刻画 的 自然 循环 ， 反 之 亦 然 。 由 这 个 定义 得 出 ， 可 归 约 流 图 
中 没有 转 入 循环 体内 的 转移 一 一 每 一 个 循环 只 能 通过 它 的 首 结 点 进入 。 

某 些 控制 流 模 式 会 使 得 流 图 是 非 可 归 约 的 ， 这 种 模式 称 为 非 正常 区 域 (improper region), 
并 且 ， 它 们 一 般 是 流 图 的 多 入 口 强 连通 分 量 。 事 实 上 ， 最 简单 的 非 正 常 区 域 是 图 7-27a 所 示 的 
有 两 个 入 口 的 一 个 循环 ， 图 7:27b 是 将 它 扩 展 得 到 的 一 个 有 三 个 入 口 的 循环 。 容 易 看 出 ， 可 以 
从 这 两 个 循环 产生 出 无 限 的 (相对 简单 的 ) 不 同 非 正 常 区 域 序列 。 

某 些 程序 设计 语言 的 语法 规则 ， 如 Modula-2 和 它 后 面 的 几 代 语 言及 BLISS， 只 人 允许 构造 具有 可 
归 约 流 图 的 过 程 。 在 其 他 多 数 语言 中 ， 只 要 我 们 避免 使 用 goto， 尤 其 是 转移 到 循环 体内 的 goto， 
则 构造 出 来 的 过 程 也 具有 可 归 约 流 图 。 对 流 图 结构 的 统计 研究 表明 ， 非 可 归 约 的 流 图 是 罕见 的 ， 
即使 是 在 像 Fortran 77 这 种 对 控制 流 结构 没有 多 少 限制 的 语言 S 和 在 20 年 前 书写 的 程序 中 情况 也 是 


O 这 句 话 不 十 分 贴切 。Fortran 77 标 准确 实 禁止 到 Go 循环 内 的 转移 ， 但 它 对 转移 到 由 分 支 和 goto 构 成 的 循环 内 
的 分 支 没 有 限制 。 
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[96] 这 样 ， 那 时 结构 化 程序 设计 还 没有 得 到 强烈 的 关注 。 有 两 个 研究 发 现 ， 现 实 中 的 Fortran 77 程 序 超 


过 90% 的 具有 可 归 约 流 图 ， 并 且 ， 一 个 由 50 个 Fortran 66 程 序 构成 的 集合 中 ， 所 有 程序 的 流 图 都 是 
可 归 约 的 。 因 此 ， 非 可 归 约 流 图 在 实际 中 很 罕见 ， 因 而 儿 乎 可 以 忽略 它们 的 存在 。 但 是 ， 它 们 又 
的 确 存在 ， 因 此 我 们 必须 保证 我 们 的 控制 流 和 数据 流 分 析 方 法 能 够 处 理 它们 。 





图 7-27 简单 的 非 正 常 区 域 


在 8.6 节 讨论 的 基于 控制 树 的 数据 流 分 析 方法 〈 它 依赖 于 可 归 约 的 流 图 ) 中 有 三 种 处 理 非 可 归 
约 流 图 的 方法 。 第 一 种 方法 如 8.4 节 所 述 ， 它 对 非 可 归 约 区 域 
进行 选 代 数据 流 分 析 ， 然 后 将 结果 插入 到 流 图 中 其 余部 分 的 
数据 流 方程 中 。 第 二 种 方法 利用 一 种 称 为 结 点 分 害 (node 
splitting) 的 技术 将 非 可 归 约 区 域 转换 成 可 归 约 的 区 域 。 如 果 
我 们 分 割 图 7-27a 中 的 结 点 B3 ， 得 到 的 是 如 图 7-28 所 示 的 流 图 : 
B3 变 成 了 一 对 结 点 B3 和 B3a， 这 个 循环 现在 成 为 了 只 有 一 个 
入 口 B2 的 自然 循环 。 假 若非 可 归 约 流 图 是 常见 的 ， 结 点 分 市 
的 开销 将 非常 昂贵 ， 因 为 它 会 使 流 图 的 大 小 呈 指 数 级 增长 ; 
所 幸 的 是 现实 中 不 是 这 种 情况 。 第 三 种 方法 是 对 一 个 单调 函 。 图 7-28 对 图 7-27a 中 非 正常 区 域 中 的 
数 的 格 执行 从 这 个 格 到 它 自身 的 诱导 迭代 (参见 8.5 节 和 8.6 节 )。 结 点 了 施加 结 点 分 割 后 的 结果 


7.6 区 间 分 析 和 控制 树 


区 间 分 析 (interval analysis) 是 对 控制 流 和 数据 流 分 析 两 者 使 用 的 若干 种 方法 的 统一 叫 法 。 
区 间 分 析 指 的 是 将 流 图 划分 为 各 种 类 型 的 区 域 (类 型 取决 于 有 具体 的 方法 ) SEP RE 
成 一 个 新 的 结 点 ( 常 称 为 拍 象 结 点 (abstract node)， 因 为 它 将 区 域 的 内 部 结构 抽象 化 了 )， 并 
用 进入 或 离开 对 应 抽象 结 点 的 边 替换 进入 或 离开 区 域 的 边 。 由 一 次 或 多 次 这 种 转换 而 得 到 的 流 
图 称 为 抽象 流 图 (abstract flowgraph)。 因 为 这 种 转换 每 次 施加 于 一 个 子 图 ， 或 并 行 地 施加 于 不 
相交 的 若干 子 图 , 故 从 每 一 个 抽象 结 点 对 应 于 一 个 子 图 的 意义 上 来 说 , 所 得 到 的 区 域 是 嵌 套 的 。 
因此 ， 施 加 一 系列 这 种 转换 的 结果 是 产生 一 棵 其 定义 如 下 的 控制 树 (control tree): 

1. 控制 树 的 根 结 点 是 表示 原始 流 图 的 抽象 图 。 

2. 控制 树 的 叶 结 点 是 单个 基本 块 。 

3. 在 根 结 点 和 叶 结 点 中 间 的 结 点 是 表示 流 图 各 个 区 域 的 抽象 结 点 。 

4. 树 的 边 表示 每 一 个 抽象 结 点 和 那些 是 其 后 裔 的 〈 并 是 从 这 个 结 点 抽象 而 来 的 ) 区 域 之 间 
的 关系 。 

例如 ， 最 简单 的 并 且 也 是 最 早 的 一 种 区 间 分 析 形 式 是 著名 的 T1-T2 分 析 。 它 只 由 两 种 转换 
组 成 : 71 晓 化 仅 一 个 结 点 的 自 循环 为 单个 结 点 ，72 晓 化 那 种 第 一 个 结 点 是 第 二 个 结 点 惟一 前 驱 
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的 两 个 结 点 序列 为 单个 结 点 ， 如 图 7-29 所 示 。 
"m 一 
| 
T2 — 


图 7-29 71-72 转 换 


现在 ,假设 给 定 一 个 图 7-30 左 边 所 示 的 流 图 ， 对 它 重复 地 应 用 T1-72 转 换 ， 我 们 得 到 图 
7-30 中 所 示 的 一 系列 变形 ， 相 应 的 控制 树 如 图 7-31 所 示 。 


| B2 | Bla Bia 
———— 0. — Bib 
[B3 | ü e n B3b ” . 
图 7-30 71-72 转 换 的 例子 
如 最 早 所 定义 的 ， 区 间 分 析 使 用 所 谓 的 极 大 区 间 ， 并 Bib 
忽略 非 可 归 约 或 非 正 常 区 域 的 存在 。 首 结 点 为 h 的 极 大 区 间 AN 
(maximal interval) 1, (有 ) 是 以 h 作 为 它 的 惟一 入 口 结 点 ,并 Bia B3b 
且 子 图 中 所 有 闭合 通路 都 包含 kh 的 最 大 单 入 口子 图 。 实 质 SN 
E, Iu DRADER HA E RER, MWACHE ue 3 Bia 
挂 出 来 的 某 种 无 环 结构 。 例 如 在 图 7-4 中 ，Iw (B4) 是 {B4， 
B6, B5, exit), 包含 B6 是 因为 包含 B4 的 惟一 闭合 通路 是 
由 B4 一 B6 和 B6 B4 组 成 的 通路 ， 包 含 B5 和 exit 是 因为 BS BA 
不 这 样 的 话 ， 子 图 就 不 是 最 大 的 。 图 7-31 图 7-30 中 流 图 的 7L-72 控 制 树 


本 节 剩 余部 分 关注 一 种 更 为 现代 的 区 间 分 析 形 式 ， 这 种 区 间 分 析 形 式 标 识 流 图 中 的 循环 而 
.不 对 其 他 控制 结构 类 型 进行 分 类 。 在 此 上 下 文中 ， 定 义 极 小 区 间 (minimal interval， 或 简称 区 
间 ) I: (1) 自然 循环 ，(2) 最 大 无 环 子 图 ， 或 (3) 极 小 非 可 归 约 区 域 。 因 此 ， 一 个 是 自然 循环 
的 极 小 区 间 与 对 应 的 极 大 区 间 的 不 同 在 于 ， 后 者 包含 了 循环 中 结 点 的 这 种 后 继 结 点 ， 这 种 后 继 
结 点 本 身 既 不 属于 循环 ， 也 不 是 极 大 区 间 的 首 结 点 ; 而 前 者 排斥 它们 。 例 如 ， 图 7-32a 和 b 分 别 
说 明了 同一 个 流 图 中 的 极 大 区 间 和 极 小 区 间 。 








图 7-32 说 明 a) 极 大 区 间 和 b) 极 小 区 间 之 间 不 同 的 例子 


图 7-33 给 出 了 一 个 稍微 复杂 一 点 的 例子 。 在 这 个 例子 中 ， 我 们 不 用 名 字 命名 抽象 子 图 ， 而 
是 简单 地 给 出 组 成 它们 的 集合 的 每 一 个 结 点 一 一 这 样 使 得 控制 树 (如 图 7-34 所 示 ) 更 为 清楚 。 基 
本 块 B2 和 B4 形 成 一 个 循环 ，B5 和 B6 也 形成 一 个 循环 。 当 它们 都 晓 化 为 单个 结 点 后 ， 我 们 发 现 
B3 和 {B5，B6)} 形 成 了 一 个 非 可 归 约 区 域 ， 它 也 晓 化 成 单个 结 点 。 剩 余 的 抽象 图 是 无 环 的 ， 并 
因此 形成 了 单个 区 间 。 B 

因为 我 们 认为 结构 分 析 (7.7 节 讨论 其 详细 内 容 ) 要 优 于 区 间 分 析 ， 因 此 这 里 只 给 出 区 间 
分 析 方法 的 要 点 。 区 间 分 析 方法 的 基本 步 又 如 下 : 

1. 执行 流 图 结 点 集合 的 后 序 人 遍历 ， 寻 找 循环 首 结 点 〈 每 个 循环 一 个 ) 和 非 正 常 区 域 的 首 结 
点 〈 每 个 区 域 一 个 集合 ， 集 合 中 结 点 个 数 大 于 1 )。 

2. 对 找到 的 每 一 个 循环 首 结 点 ， 用 图 7-21 给 出 的 算法 Nat_loop O 构造 出 它 的 自然 循环 ， 
并 将 它 归 约 成 类 型 为 “自然 循环 ”的 抽象 区 域 。 

3. 对 于 每 一 个 非 正常 区 域 的 入 口 集合 ， 构 造 包含 所 有 入 口 的 流 图 的 极 小 强 连 通 分 量 ( 可 修 
改 图 7-26 给 出 的 算法 以 构造 极 小 SCC)， 并 将 它 归 约 成 类 型 为 “ 非 正常 区 域 ”的 抽象 区 域 。 

4. 对 于 entry 结 点 ， 以 及 对 于 自然 循环 中 或 非 可 归 约 区 域 中 的 结 点 的 每 一 个 直接 后 裔 ， 构 
造 以 此 结 点 作为 根 结 点 的 极 大 无 环 图 ; 如 果 所 产生 的 图 有 多 于 一 个 的 结 点 ， 将 它 归 约 成 类 型 为 
“无 环 区 域 ”的 抽象 区 域 。 

5. 迭代 此 过 程 直 至 终止 。 


O 实际 上 ， 区 间 分 析 可 看 成 是 一 种 使 用 较 少 区 域 或 区 间 类 型 的 结构 分 析 的 削减 版 本 。 因 此 ， 执 行 区 问 分 析 的 算 


法 可 以 从 执行 结构 分 析 的 算法 中 导出 。 





48 Hl Sd 147 


{B1,{B2,B4}, 
(B3, (B5,B6) ) , B7) 


B1 (B2,B4) (B3, (B5,B6)) B7 


B2 B4 B3 {B5 ,B6} 





B5 B6 


图 7-33 区 间 分 析 的 例子 图 7-34 ”图 7-33 中 流 图 的 控制 树 


注意 ， 这 个 过 程 的 终止 是 有 保证 的 ， 因 为 流 图 要 么 是 无 环 图 ， 要 么 包含 某 种 类 型 的 循环 。 
如 果 它 是 无 环 的 ， 该 过 程 在 当前 这 个 迭代 终止 ;如 果 它 包含 多 个 循环 ， 则 在 每 一 个 迭代 至 少 会 
出 现 对 一 个 自然 循环 或 非 正常 区 域 的 归 约 ， 从 而 导致 此 图 的 循环 个 数 最 后 变 成 1， 而 每 个 流 图 
一 开始 只 包含 有 限 数目 的 循环 。 


7.7 结构 分 析 


结构 分 析 是 一 种 更 为 精致 的 区 间 分 析 形 式 ， 它 的 目的 是 使 数据 流 分 析 的 语法 制导 方法 能 应 
用 于 低级 中 间 代 码 (Rosen 开 发 的 这 种 方法 是 用 于 语法 树 的 )。Rosen 的 方法 称 为 高 级 数据 流 分 
析 (high-level data-flow analysis)， 其 优点 是 ， 对 于 源 语言 中 每 一 种 类 型 的 结构 化 的 控制 流 构 
造 ， 它 给 出 一 组 规则 ， 用 这 些 规则 执行 常规 的 (位 向 量 的 ) 跨越 和 流 经 这 种 控制 流 构造 的 数据 
流 分 析 比 用 和 迭代 方法 更 具 效 率 。 因 此 ， 这 种 方法 扩展 了 优化 的 目标 之 一 ， 即 ， 通 过 将 编译 时 的 
工作 移 到 语言 定义 时 ， 从 而 使 得 执行 时 的 工作 能 在 编译 时 完成 。 具 体 而 言 ， 就 是 通过 语言 的 语 
法 和 语义 来 确定 结构 化 的 控制 流 的 数据 流 方程 。 ' 

结构 分 析 通 过 发 现 流 图 中 的 控制 流 结构 ， 并 提供 一 种 处 理 非 正常 区 域 的 途径 ， 将 这 种 方法 
扩充 到 可 处 理 任意 的 流 图 。 例 如 ， 结 构 分 析 可 以 接受 由 goto、iE 和 赋值 形成 的 循环 ， 并 区 别 
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出 它们 是 while 还 是 repeat 循 环 ， 即 使 它们 的 语法 没有 给 出 这 种 提示 。 

结构 分 析 与 基本 的 区 间 分 析 的 不 同 在 于 ， 它 能 标识 出 比 循环 更 多 的 控制 结构 类 型 ， 并 使 
每 一 种 类 型 的 控制 结构 形成 一 个 区 域 ， 其 结果 是 为 实现 非常 有 效 的 数据 流 分 析 提供 了 一 种 基 
础 。 它 建立 的 控制 树 一 般 情 况 下 要 比 区 间 分 析 建 立 的 控制 树 更 大 一 一 因为 区 域 类 型 越 多 ， 标 
识 出 的 区 域 就 越 多 一 一 但 是 ， 每 一 个 区 域 相对 要 简单 些 也 小 些 。 结 构 分 析 中 的 一 个 关键 概念 
是 ， 它 所 标识 的 每 一 个 区 域 只 有 一 个 入 口 点 ， 因 此 ， 非 可 归 约 区 域 或 非 正 常 区 域 总 是 包含 后 
面 这 种 强 连通 分 量 入 口 结 点 集合 的 最 低 公 共 必 经 结 点 ， 这 种 强 连 通 分 有 量 是 该 非 正常 区 域内 的 
多 入 口 循 环 。 . 

图 7-35 和 图 7-36 分 别 给 出 了 结构 分 析 能 够 识别 的 典型 的 无 环 和 有 环 控制 结构 。 注 意 ， 这 
些 类 型 的 区 域 中 哪些 适合 于 给 定 的 源 语言 是 随 所 选择 的 语言 而 变化 的 ， 并 且 也 可 能 还 存在 其 
他 类 型 的 区 域 。 例 如 ， 特 定语 言 的 case/switch 结 构 可 能 允许 、 也 可 能 不 允许 从 一 个 case 
顺序 下 降 到 下 一 个 case， 而 不 是 直接 分 支 到 结构 的 出 口 一 一 在 C 的 switch 语 句 中 ， 任 何 
case 都 可 以 顺序 下 降 到 下 一 个 case， 或 直接 分 支 到 结构 的 出 口 ， 而 在 Pascal 的 case 中 ， 所 
有 case 都 分 支 到 出 口 。 因 此 ，case/switch 结 构 总 是 被 用 来 作为 一 种 覆盖 可 能 范围 的 真实 
模型 。 注 意 ， 图 中 所 指 的 自然 循环 表示 的 是 不 包括 另外 两 种 特殊 可 归 约 循环 结构 ( 即 不 是 自 


. 我 循环 或 while 循 环 ) 在 内 的 可 归 约 循环 ， 并 且 它 只 是 示意 性 的 ， 因 为 ， 循 环 可 能 不 只 有 两 





条 出 口 边 。 
CE] [9]. 
| 82 | if-then if-then-else 
| 
[ Bi | | 82 } >| 93 | | Bn | 
case/switch FE] f 


图 7-35 结构 分 析 中 使 用 的 几 种 类 型 的 无 环 区 域 


类 似 地 ， 非 正常 (或 不 可 归 约 ) 区 间 也 是 示意 性 的 ， 因 为 它 的 入口 基本 块 可 能 有 两 个 以 上 
的 后 继 , 并 且 可 能 包含 三 个 以 上 的 基本 块 。 结 构 分 析 中 使 用 了 一 种 更 典型 的 区 间 ， 即 正常 区 间 
(proper interval), ， 它 是 一 种 独特 的 无 环 结构 ， 即 ， 既 没有 包含 环 路 但 也 不 能 被 任何 简单 的 无 环 
情形 所 归 约 的 结构 。 这 种 结构 的 例子 如 图 7-37 所 示 。 

另外 ， 图 7-23 中 所 表示 的 那 种 有 两 条 回 边 进入 B1 的 情形 ， 结 构 分 析 将 其 识别 为 两 个 里 套 的 
whi1le 循 环 ， 它 们 中 哪 一 个 是 内 层 循环 取决 于 过 到 它们 时 的 顷 序 。 
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| 
自我 循环 while 循 环 
| B2 | | B2 p= ss | 
自然 循环 图 解 非 正常 区 间 图 解 
图 7-36 结构 分 析 中 使 用 的 几 种 类 型 的 有 环 区 域 图 7-37 一 个 不 适合 任何 简单 分 类 的 


无 环 区 域 ， 因 此 将 其 标识 为 正常 区 间 


结构 分 析 的 处 理 过 程 是 ， 构 造 所 考虑 流 图 的 深度 为 主 生成 树 ， 然 后 对 各 种 区 域 类 型 的 
实例 按 后 序 次 序 依次 考察 流 图 中 的 结 点 ， 由 它们 形成 抽象 结 点 ， 晓 化 掉 连 接 边 ， 并 构造 
对 应 的 控制 树 。 对 各 种 类 型 的 区 域 进行 检查 的 顺序 以 及 检查 它们 的 方法 很 重要 ， 例 如 ， 
对 于 一 个 可 以 构成 一 个 块 的 x > 3 的 区 域 序列 ， 如 果 我 们 在 形成 该 区 域 之 前 注视 到 这 个 序 
列 的 两 端 ， 便 可 以 只 用 一 步 将 它 娆 化 成 一 块 ; 但 如 果 我 们 每 一 步 只 检查 第 一 块 ， 然 后 检 
查 它 的 前 驱 或 后 继 ， 则 为 了 将 它 暗 化 到 由 n - 1 块 组 成 的 层次 ， 需 要 用 nn 一 1 步 。 显 然 ， 前 
一 种 方法 更 好 。 

按照 Sharir [Shar80] 的 方法 ， 当 我 们 分 析 一 个 流 图 上 时， 构造 名 为 Structof、 
structType、Structures 和 StructNodes 的 四 种 数据 结构 (如 图 7-38 所 示 )。Structof 
对 于 每 一 个 结 点 ， 给 出 直接 包含 该 结 点 的 (抽象) 区域 结 点 。StructType 对 于 每 一 个 区 域 结 
n 给 出 它 的 类 型 。Structures 是 所 有 区 域 结 点 组 成 的 集合 。StructNodes 对 于 每 一 个 区 

域 ， 给 出 其 内 结 点 的 结 点 表 。 


Succ, Pred: Node — set of Node 

RegionType = enum (Block,IfThen,IfThenElse,Case,Proper,SelfLloop, 
WhileLoop,NaturalLoop,Improper) 

|| StructOf(n) = the region containing node n 

StructOf: Node —> Node 

|| StrucType(n) = the member of RegionType that is the type of 


|| the region denoted by node n 

StructType: Node —> RegionType 

l| the set of all region nodes 

Structures: set of Node 

|| StructNodes(n) = the set of nodes making up the region 





图 7-38 用 于 结构 分 析 的 全 局 数据 结构 
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|| abstracted to node n 

StructNodes: Node —> set of Node 

l| node and edge sets of the control tree 
CTNodes: set of Node 

CTEdges: set of (Node x Node) 


|| postorder traversal of the flowgraph 
PostCtr, PostMax: integer 

Post: integer —* Node 

Visit: Node — boolean 





图 7-38  (£&) 


图 7-39 给 出 的 结构 分 析 算 法 Structural_analysis () 假定 我 们 使 用 的 是 图 7-33 和 图 7-36 
所 示 的 那些 区 域 类 型 ， 外 加 前 面 描述 过 的 其 他 类 型 。 不 过 ， 只 要 适合 于 所 处 理 的 源 语言 ， 它 也 可 
以 使 用 其 他 区 域 类 型 。 该 算法 首先 初始 化 上 面 描述 的 数据 结构 ， 这 些 数 据 结构 记录 流 图 的 层次 结 
构 和 表示 控制 树 的 结构 (CTNodes 和 CTEdges)。 然 后 它 对 流 图 进行 深度 为 主 查找 ， 从 而 构造 出 
流 图 结 点 的 后 序 人 遍历。 接着， 通过 对 流 图 进行 一 系列 遍历 标识 出 每 一 个 区 域 ， 并 使 它 晓 化 到 单个 
抽象 区 域 结 点 。 如 果 执 行 归 约 ， 它 修复 流 图 的 结 点 集合 、 边 集合 和 后 序 次 序 〈 如 果 需 要 )， 并 再 
次 对 图 进行 处 理 。 该 算法 用 新 抽象 结 点 替代 原 区 域 ， 并 用 进入 新 抽象 结 点 的 边 奉 代 进 入 原 区 域 的 
边 ， 用 离开 这 个 新 结 点 的 边 替 代 离 开 原 区 域 的 边 。 同 时 ， 该 算法 还 构造 出 流 图 的 控制 树 。 


procedure Structural Analysis(N,E,entry) 
N: in set of Node 
E: in set of (Node x Node) 
entry: in Node 
begin 
m, n, p: Node 
rtype: RegionType 
NodeSet, ReachUnder: set of Node 
StructOf := StructType := Structures := StructNodes := Ø 
CTNodes := N; CTEdges :- Ø 
repeat 
Post := f; Visit := Ø 
PostMax := 0; PostCtr := 1 
DFS_Postorder (N,E,entry) 
while IN! > 1 & PostCtr s PostMax do 
n := Post(PostCtr) 
|| locate an acyclic region, if present 
rtype := Acyclic Region Type(N,E,n,NodeSet) 
if rtype * nil then 
p := Reduce(N,E,rtype,NodeSet) 
if entry € NodeSet then 
entry := p 
fi 
else 
|| locate a cyclic region, if present 
ReachUnder := {n} 
for each m € N do 
if Path Back(m,n) then 
ReachUnder v= (m) | 
























fi 
od 


rtype := Cyclic Region Type(N,E,n,ReachUnder) 


图 7-39 结构 分 析 算法 
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if rtype * nil then 
p := Reduce(N,E,rtype,ReachUnder) 


if entry € ReachUnder then 


PostCtr *- 1 


fi 
od 
until {NI = 1 
end || Structural Analysis 


图 7-39 (4) 


集合 Reachunder 用 来 确定 有 环 控制 结构 中 包含 的 结 点 。 如 果 ReachUnder 只 包含 一 个 结 
点 ， 并 且 存 在 一 条 从 这 个 结 点 到 自身 的 边 ， 则 这 个 有 环 结构 是 一 个 自我 循环 。 如 果 它 包含 多 于 
一 个 的 结 点 ， 则 可 能 是 一 个 whi1le 循 环 ， 也 可 能 是 自然 循环 ， 还 可 能 是 非 正 党 区域。 如 果 
ReachUunder 中 的 结 点 都 是 第 一 个 被 放置 进来 的 那个 结 点 的 后 裔 ， 则 这 个 循环 是 一 个 while 循 
环 或 自然 循环 。 如 果 它 包含 一 个 第 一 个 被 放置 进来 的 结 点 的 非 后 裔 结 点 ， 则 这 个 区 域 是 一 个 非 
正常 区 域 。 注意， 对 于 非 正 常 区 域 , 结果 获得 的 这 个 区 域 的 入 口 结 点 不 是 此 有 环 结构 的 一 部 分 ， 
因为 所 有 区 域 都 只 有 一 个 入 口 结 点 ; 图 7-45 中 的 例 程 Minimize_Improper () 确定 构成 这 种 
区 域 的 结 点 集合 。 

计算 Reachunder 用 到 了 函数 Path_Back (m，n) ， 如 果 存 在 这 样 的 一 个 结 点 k: 有 一 条 
从 m 到 kk 且 不 经 过 n 的 路 径 ( 可 能 为 空 )， 并 且 有 一 条 k 一 n 的 回 边 ， 则 该 函数 返回 true; 否则 返 
回 false。 
O 当 流 图 归 约 成 只 有 一 个 结 点 且 没 有 边 的 图 后 ， 该 算法 便 终止 。 图 7-40 给 出 的 例 程 DFS_ 
Postorder () 构造 流 图 中 结 点 的 后 序 遍 历 。 图 7-41 给 出 的 例 程 Acyc1lic_Region_Type (N, 
E, node, nset) 确定 node 是 否 是 一 个 无 环 控制 结构 的 入 口 结 点 ， 并 返回 控制 结构 的 类 型 或 nil 
(如 果 不 是 这 样 一 个 入 口 结 点 ) ; 该 例 程 在 nset 中 存储 所 标识 的 控制 结构 的 结 点 集合 。 


procedure DFS Postorder(N,E,x) 
N: in set of Node 
E: in set of (Node x Node) 
x: in Node 

begin 

y: Node 

Visit(x) := true 

for each y € Succ(x) (Visit(y) = nil) do 
DFS_Postorder (N,E,y) 

















od 

PostMax += 1 

Post (PostMax) := x 
end || DFS_Postorder 


图 7-40 计算 流 图 结 点 的 后 序 遍 历 c 
图 7-42 给 出 的 例 程 Cyclic_Region_Type (N, E, node, nset) 判定 node 是 否 为 一 个 有 环 结 
构 的 人 人 口 结 点 ， 并 返回 它 的 类 型 或 ni1l (如 果 不 是 这 样 一 个 人 口 结 点 ) ; 它 同 样 将 所 标识 的 控 
制 结构 的 结 点 集合 存储 在 nset 中 。 
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procedure Acyclic. Region Type(N,E,node,nset) returns RegionType 
in set of Node 
set of (Node x Node) 
node: inout Node 
nset: out set of Node 
begin 
m, n: Node 
p, 8: boolean 
nset := f 
|| check for a Block containing node 
n := node; p := true; s := lSucc(n)| = 1 
while p & s do 


d nset u= (n); n := eSucc(n); p := |Pred(n)| ; := [Succ(n)| = 1 
o 


if p then 


nset v= (n) 
fi 


n := node; p := |Pred(n)| = 1; s := true 
while p & s do 
nset U- (n); n := ePred(n); p := |Pred(n)| ; := |[Succ(n)| = 1 


od 
if s then 
nset U- {n} 
fi 
node := n 
if Inset| 2 2 then 
return Block 
|| check for an IfThenElse 
elif |Succ(node)| = 2 then 
m := eSucc(node); n := e(Succ(node) - {m}) 
if Succ(m) = Succ(n) & |Succ(m)| = 1 
& |Pred(m)| = 1 & |Pred(n)! = 1 then 
nset := {node,m,n} 
return IfThenElse 
|| other cases (IfThen, Case, Proper) 
elif . 


else 


return nil 
fi 
fi 
end {| Acyclic.Region. Type 


图 7-41 标识 无 环 结构 类 型 的 例 程 


procedure Cyclic Region Type(N,E,node,nset) returns RegionType 
N: in set of Node 

E: in set of (Node x Node) 

node: in Node 

nset: inout set of Node 



















begin 
m: Node 
|| check for a SelfLoop 
if |nset| = 1 then 
' if node->node € E then 
return SelfLoop 
else 


图 7-42 标识 有 环 结构 类 型 的 例 程 


各 7 全 
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return nil 
fi 


3m € nset (!Path(node,m,N)) then 

|l it's an Improper region 

nset :- Minimize Improper(N,E,node,nset) 
return Improper 


check for a WhileLoop 
:= e(nset - {node}) 
|Succ(node)| = 2 & |Succ(m) | 
|Pred(node)| = 2 & |Pred(m)1 
return WhileLoop 
else 
|| it's a NaturalLoop 
return NaturalLoop 


{| CyclicEntryType 





图 7-42 (££) 


图 7-43 定 义 的 例 程 Reduce (N, E, rtype, NodeSet) 调用 Create_Node () 来 创建 一 个 区 域 结 
点 x， 并 用 它 表示 所 标识 的 区 域 ， 同 时 相应 地 设置 StructType、Structures、StructoOf 
和 StructNodes 等 数据 结构 ， 并 返回 n 作 为 其 返回 值 。Reduce () 使 用 了 Replace()， 后 者 
在 图 7-44 中 定义 ， 它 用 新 结 点 替代 所 标识 的 区 域 ， 相 应 地 调整 进入 和 离开 的 边 ， 以 及 前 驱 和 后 
继 函 数 ， 并 建立 由 CTNodes 和 CTEdges 表 示 的 控制 树 。 


procedure Reduce(N,E,rtype,NodeSet) returns Node 
N: inout set of Node 
E: inout set of (Node x Node) 
rtype: in RegionType 
NodeSet: in set of Node 
begin 
node := Create Node( ), m: Node 
|| replace node set by an abstract region node and 
|| set data structures 
Replace(N,E,node,NodeSet) 
StructType(node) := rtype 
Structures v= {node} 
for each m € NodeSet do 
StructOf(m) := node 














od 
StructNodes(node) := NodeSet 
return node 

end || Reduce 


图 7-43 结构 分 析 的 区 域 归 约 例 程 


Replace () 中 使 用 的 例 程 Compact (N, n, nset) 将 结 点 m 加 入 到 N 中 ， 按 结 点 在 mset 中 的 最 
高 编号 位 置 将 n 插 入 到 Post () 中 ， 同 时 从 N 和 ?Post () 中 删除 nset 中 的 结 点 ， 使 剩余 的 结 点 集中 
在 Post O 的 开始 ， 设 置 Postctz 为 n 在 新 产生 的 后 序 遍 历 中 的 索引 ,并 相应 设置 PostMax 
它 返回 N 的 新 值 。 

图 7-45 给 出 的 例 程 Minimize_Improper (N, E, n, nset) 用 于 确定 包含 x 的 一 个 较 小 的 非 正 
常 区 域 。 根 据 由 DFS_Postorder () 给 出 的 流 图 中 结 点 的 次 序 ， 它 限制 这 个 非 正常 区 域 要 么 为 
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一 个 最 小 子 图 ， 这 个 最 小 子 图 包含 结 点 x 和 至 少 两 个 其 他 结 点 ， 使 得 (1) 这 些 结 点 中 除 n 之 外 有 一 
个 结 点 是 子 图 中 所 有 结 点 的 必 经 结 点 ， 并 且 (2) 读 子 图 中 从 n 到 另外 某 个 结 点 的 非 空 路 径 上 的 任 
何 结 点 也 都 在 该 子 图 中 ; 要 么 为 一 个 稍微 大 一 点 的 包含 这 种 最 小 子 图 作为 子 图 的 非 正常 区 域 。 


procedure Replace(N,E,node,NodeSet) 
N: inout set of Node 
E: inout set of (Node x Node) 
node: in Node 
NodeSet: in set of Node 
begin 
|| link region node into abstract flowgraph, adjust the postorder traversal 
|| and predecessor and successor functions, and augment the control tree 
m, ctnode :- Create Node( ): Node 
e: Node x Node 
N := Compact (N, node, NodeSet) 
for each e € E do 


if e01 € NodeSet V e02 € NodeSet then 


E -= (e); Succ(e@1) -= {e@2}; Pred(e02) -= {e81} 
if e01 € N & e@1 + node then 
E u= (e01—node); Succ(e81) u= {node} 
elif e@2 EN & e@2 + node then 
E v= {node>e@2}; Pred(e@2) v= {node} 
fi 
fi 
od 
CTNodes u+ {ctnode} 
for each n € NodeSet do 
CTEdges v= (ctnode-n) 
od 
end || Replace 





图 7-44 完成 结 点 和 边 替 代 ， 并 建立 结构 分 析 控制 树 的 例 程 


procedure Minimize Improper(N,E,node,nset) returns set of Node 
N, nset: in set of Node 
E: in set of (Node x Node) 
node: in Node 
begin 
ncd, m, n: Node 
I := MEC. Entries(node,nset,E): set of Node 
ncd :- NC Domin(I,N,E) 
for each n € N - í(ncd) do 
if Path(ncd,n,N) & 3m € I (Path(n,m,N-{ncd})) then 
I v= {n} 
fi 
od 
return I U {ncd} 
|| Minimize. Improper 


图 7-45 结构 分 析 的 非 正常 区 间 极 小 化 例 程 


Minimize_Improper() 使 用 了 两 个 函数 ， 即 MEC_Entries(n, nset, E) 和 
NC. Domin (J, N, E) ; MEC. Entries (n, nset, E) 返回 4 是 其 入 口 之 一 的 最 小 多 入 口 环 路 的 入 口 
结 点 集合 (nset 的 所 有 成 员 )，NC_Domin (1, N, E) 返回 7 中 结 点 的 最 近 公共 必 经 结 点 。 
NC. Domin () 很 容易 从 流 图 的 必 经 结 点 树 计算 出 来 。 如 果 存 在 一 条 从 n 到 m 的 路 径 使 得 该 路 径 
上 的 所 有 结 点 都 是 1 中 的 结 点 ， 函 数 Path (n, m, 了 ) 返回 true; 否则 返回 false。 













end 
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后 序 对 所 产生 的 非 正常 区 域 的 判定 会 有 所 影响 ， 有 关 例 子 参见 后 面 图 7-49b 的 讨论 。 这 里 
给 出 的 方法 几乎 总 是 产生 比 Sharir 原 来 的 方法 要 小 的 非 正常 区 间 。 210 
图 7-46a 中 的 流 图 是 结构 分 析 的 一 个 例子 。 图 7-47 给 出 了 此 流 图 的 深度 为 主 生成 树 。 如 图 7-46b |211 
Bim. 分 析 的 第 一 步 9 做 了 三 个 归 约 : entry 结 点 以 及 其 后 的 B1 作 为 一 个 块 被 识别 并 被 归 约 ， 
B2 作 为 一 个 自我 循环 被 识别 并 被 归 约 ，B5 和 B6 作 为 1f-then 结 构 被 识别 并 被 归 约 。 它 设置 数 
据 结构 如 下 所 示 : 
StructType (entrya) = Block 
StructOf(entry) = Struct0f(B1) = entrya 
StructNodes(entrya) = {entry,Bi} 
StructType(B2a) = SelfLoop 
Struct0f (B2) = B2a 
StructNodes(B2a) = (B2) 
StructType(B5a) = IfThen 
StructOf(B5) = StructOf(B6) = B5a 
StructNodes(B5a) = (B5,B6) 
Structures = {entrya,B2a,B5a} 


下 一 步 如 图 7-46c 所 示 , 识别 和 归 约 由 entzya 和 B2a 组 成 的 1f-then 以 及 由 B5a 和 B7 组 成 的 块 。 
它 设 置 数据 结构 如 下 所 示 : 


StructType(entryb) = IfThen 

StructÜf(entrya) = StructO0f(B2a) = entryb 

StructNodes(entryb) = {entrya,B2a} 

StructType(B5b) = Block 

StructOf(B5a) = StructOf(B7) = B5b 

StructNodes(B5b) = {B5a,B7} 

Structures = {entrya,B2a,B5a,entryb,B5b} 21 


接 下 来 的 步骤 如 图 7-46d 所 示 ，B3 、B4 和 B5b 作 为 if-then-else 被 归 约 ， 设 置 的 数据 结构 如 
下 所 示 : 


StructType(B3a) = IfThenElse 

StructOf(B3) = StructO0f (B4) = StructOf(B5b) = B3a 
StructNodes(B3a) - (B3,B4,B5b) 

Structures = {entrya,B2a,B5a,entryb,B5b,B3a} 


最 后 一 步 ，entryb、B3a 和 exit 被 归 约 为 一 个 块 ， 得 到 图 7-46e。 设 置 的 数据 结构 如 下 : 


StructType(entryc) = Block 

StructOf(entryb) = StructOf(B3a) = StructOf (exit) = entryc 
StructNodes(entryc) = {entryb,B3a,exit} 

Structures = {entrya,B2a,B5a,entryb,B5b,B3a,entryc} 


最 后 得 到 的 控制 树 如 图 7-48 所 示 。 

图 7-49 给 出 了 两 个 包含 非 正常 区 域 的 流 图 例子 。 在 例 a) 中 ， 例 程 Minimize- 
Improper () 识别 由 B6 之 外 的 所 有 结 点 组 成 的 子 图 为 一 个 非 正常 区 间 。 在 b) 中 ， 识 别 出 来 的 
非 正常 区 间 取 决 于 所 使 用 的 特定 后 序 遍 历 : 如 果 B3 先 于 B2， 则 它 识别 一 个 包含 B1、B3 和 B4 的 
非 正常 区 域 , 然后 这 个 区 域 连同 B2 和 B5 一 起 被 识别 为 该 区 域 的 一 个 抽象 结 点 ; 如 果 B2 先 于 B3 
则 它 识别 由 所 有 5 个 结 点 组 成 的 一 个 非 正常 区 域 。 


t2 


O 这 个 图 实际 展示 的 分 析 过 程 可 看 成 是 结构 分 析 的 并 行 版 本 ， 它 在 每 一 遍 可 同时 进行 若干 归 约 。 图 中 这 样 表示 
是 为 了 节省 空间 ， 在 算法 中 也 可 以 这 样 实现 ， 但 以 显著 降低 算法 的 可 理解 性 为 代价 。 
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- B1 
i entryc 
Fi B2*) B 
& { entryb B3a . exit 
‘> B3 AN 一 六 
PA N entrya B2a B3 B4  B5b 
B4 B5 S/N 
M iF entry B1 B2 B5a B7 
VE S/N 
exit----B7 -« B5 B6 
图 7-47 图 7-46a 中 流 图 的 深度 为 主 生成 树 图 7-48 图 7-46 中 所 分 析 的 流 图 的 控制 树 


7.8 小 结 


控制 流 分 析 是 我 们 第 一 次 接触 到 的 与 优化 直接 有 关 的 重要 内 容 。 

优化 要 求 我 们 能 够 刻画 程序 控制 流 以 及 它们 对 数据 执行 的 操作 所 具有 的 特征 ， 以 便 编译 器 
能 够 删除 任何 无 用 的 生成 代码 ， 并 使 用 更 高 效 的 操作 。 

如 前 面 所 讨论 的 ， 有 两 种 主要 的 控制 流 分 析 方 法 ， 它 们 都 从 确定 构成 过 程 的 基本 块 并 形成 
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a) b) 
图 7-49 两 个 非 正常 区 间 的 例子 


其 流 图 开始 。 第 一 种 方法 使 用 必 经 结 点 来 发 现 循环 ， 并 简单 地 标识 它 找到 的 循环 给 优化 使 用 。 
我 们 也 为 那些 能 施加 于 其 上 的 优化 标识 了 扩展 基本 块 和 反 扩 展 基 本 块 。 这 种 方法 足以 应 付 和 迭代 
数据 流 分 析 的 需要 。 

第 二 种 处 理 方 法 称 为 区 间 分 析 ， 它 包括 一 系列 的 算法 ， 这 些 算 法 分 析 整 个 过 程 的 结构 ， 并 
将 过 程 分 解 成 称 为 区 间 的 嵌 套 区 域 。 区 间 的 嵌 套 结构 形成 了 控制 树 ， 控 制 树 有 助 于 数据 流 分 析 
的 结构 化 和 提高 其 分 析 速 度 。 最 成 熟 的 一 种 区 间 分 析 形 式 称 为 结构 分 析 ， 它 的 实质 是 对 过 程 内 
的 所 有 控制 结构 进行 分 类 。 由 于 它 特别 重要 ， 因 此 我 们 用 了 一 节 的 篇 幅 来 讨论 它 。 

过 去 ， 多 数 优 化 编译 器 使 用 的 是 必 经 结 点 和 迭代 数据 流 分 析 : 但 是 ， 这 种 情况 正在 发 生 改 
变 ， 因 为 基于 区 闻 的 方法 更 快 ， 且 能 更 方便 地 更 新 已 经 计算 出 来 的 数据 流 信息 ， 并 且 采 用 结构 
分 析 方 法 特别 容易 实现 第 18 章 讨论 的 控制 流转 换 。 


7.9 进一步 阅读 


[LenT79] 中 描述 了 Lengauer 和 Tarjan 的 计算 必 经 结 点 的 方法 。 它 使 用 的 路 径 压 缩 算法 在 
[Tarj81] 中 有 更 为 完整 的 描述 。Tarjan 的 查找 强 连通 分 量 的 算法 在 [Tarj72] 中 给 出 。Alstrup 和 
Lauridsen 的 必 经 结 点 树 的 最 新 算法 描述 见 [AlsL96]。- 

在 [Kenn81] 中 能 找到 关于 各 种 流 图 转换 的 综述 ， 而 且 关 于 流 图 归 约 性 的 术语 也 起 源 于 这 篇 
论文 。 关 于 Fortran 程 序 中 的 可 归 约 性 的 研究 来 源 于 Allen 和 Cocke [AIIC72b], 以 及 Knuth 


[Knut711]。71-72 分 析 的 描述 见 [Ullm73]。 极 大 区 间 的 定义 源 于 Allen 和 Cocke [AllC76]; Aho, 


Sethi 和 Ullman [AhoS86] 也 使 用 了 极 大 区 间 ; 这 两 篇 论文 都 给 出 了 归 约 流 图 到 极 大 区 间 的 算法 。 

最 早 将 结构 分 析 公 式 化 的 是 Sharir [Shar80]。 基 于 语法 树 的 数据 流 分 析 方 法 应 归于 
Rosen( 参 见 [Rose77] 和 [Rose79])，Schwartz 和 Sharir [SchS79] 对 这 种 方法 做 了 扩充 。 关 于 分 析 非 
正常 区 间 并 使 之 极 小 化 的 现代 方法 的 讨论 见 [JaiT88]， 但 是 正如 论文 中 讨论 的 那样 ， 这 种 方法 


是 有 缺陷 的 -一 它 特意 定义 非 正常 区 域 有 一 个 给 定 的 结 点 作为 其 必 有 经 结 点 ， 这 导致 了 这 种 非 正 ， 


常 区 域 只 包含 那个 结 点 。 
7.10 练习 
7.1 对 含有 setjmp () 调 用 的 C 函 数 ， 指 明 对 该 函数 的 流 图 必须 增加 的 边 集合 。 
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(a) 将 图 7-16 中 的 ICAN 过 程 Domin_Fast () 划分 为 基本 块 。 你 会 发 现 这 有 助 于 构 
造 它 的 流 图 。(b) 然后 将 它 划 分 为 扩展 基本 块 。 

为 图 7-12 中 例 程 Depth_First_Search_PP() 的 流程 图 结 点 构造 其 (a) 深 度 为 主 
表示 ，(b) 深 度 为 主 次 序 ，(c) 前 序 次 序 和 (dd) 后 序 次 序 。 

假设 对 于 流 图 中 每 一 对 结 点 a 和 ib，a dom b 当 且 仅 当 b pdom a。 该 流 图 的 结构 
是 什么 ? 

用 你 可 以 使 用 的 语言 实现 Dom_Comp () 、Idom_Comp () 和 Domin_Fast(), 并 
且 对 图 7-32 中 的 流 图 运行 它们 。 

解释 图 7-17 中 的 过 程 Compress () 所 做 的 工作 。 

解释 图 7-18 中 的 过 程 Link O 所 做 的 工作 。 

对 图 7-50 应 用 图 7-26 中 的 算法 Strong_Components () 。 





图 7-50 要 对 其 应 用 图 7-26 中 算法 Strong_Components () 的 一 个 例 图 


定义 一 个 由 不 同 的 非 正 常 区域 R,，R，， … 组 成 的 无 穷 序 列 ， 其 中 每 一 个 及 由 
ARAN, MIRAE, ARK. 
给 出 一 个 非 可 归 约 区 域 RK,，R,，R;，… 组 成 的 无 穷 序 列 ， 其 中 R; 由 ;个 结 点 组 成 ， 
并 且 对 R; 执行 结 点 分 割 将 产生 一 个 其 结 点 个 数 是 i 的 指数 的 流 图 

编写 一 个 计算 可 归 约 流 图 中 极 大 区 间 的 ICAN 程 序 。 

编写 一 个 计算 可 归 约 流 图 中 极 小 区 间 的 ICAN 程 序 。 

阅读 Rosen 的 论文 [Rose77] 和 [Rose79]， 并 根据 他 的 方法 构造 出 if-then-else 结 构 和 
repeat 循 环 的 公式 。 | 

写 出 图 7-35 中 case/switch 模 式 的 形式 化 说 明 。 

写 出 自然 循环 集合 (参见 图 7-36) 的 形式 化 说 明 ， 其 中 定义 自然 循环 为 单 人 口 多 
出 口 循环 ， 并 且 其 内 只 有 一 个 返回 到 入 口 的 分 支 。 

对 图 16-7 中 的 Make_Webs () 和 图 16-24 中 的 Gen_spi1l1l_Code ( ) 例 程 执行 结构 
控制 流 分 析 。 

用 ICAN 实 现 由 Minimize_Improper () 使 用 的 函数 MEC_Entries() 。 





第 8 章 数据 流 分 析 


数据 流 分 析 的 目的 是 提供 一 个 过 程 ( 或 一 大 段 程 序 ) 如 何 操纵 其 数据 的 全 局 信息 。 例 如 ， 
常数 传播 分 析 力 求 判定 对 一 个 特定 变量 的 所 有 赋值 在 某 个 特定 点 是 否 总 是 给 定 相同 的 常数 值 ， 
如 果 是 这 样 ， 则 在 那 一 点 可 用 一 个 常数 来 替换 该 变量 。 

数据 流 分 析 的 范围 很 广 ， 可 以 从 分 析 一 个 过 程 的 抽象 执行 例如， 判定 一 个 过 程 是 计算 阶 
乘 的 函数 ， 参 见 8.14 节 )， 到 比较 简单 和 比较 容易 的 分 析 〈 如 下 一 节 将 讨论 的 到 达 - 定 值 问题 )。 

在 任何 情况 下 ， 我 们 都 必须 保证 数据 流 分 析 给 出 的 信息 没有 误解 被 分 析 过 程 的 行为 ， 即 它 
不 能 告诉 我 们 执行 某 种 代码 转换 是 安全 的 ， 而 实际 却 是 不 安全 的 。 我 们 必须 仔细 地 设计 数据 流 
方程 ， 并 确信 我 们 计算 出 来 的 解 即使 不 是 过 程 处 理 其 数据 的 精确 表示 ， 也 至 少 是 它 的 保守 近似 
表示 ， 以 此 来 保证 这 一 点 。 例 如 ， 对 于 到 达 一 定 值 问 题 一 -在 该 问题 中 我 们 判定 变量 的 哪些 定 
值 可 以 到 达 一 个 特定 的 使 用 一 一 如 果 存 在 到 达 某 个 特定 使 用 的 定 值 时 ， 数 据 流 分 析 就 一 定 不 能 
告诉 我 们 没有 定 值 到 达 这 个 使 用 。 如 果 数 据 流 分 析 给 出 的 到 达 - 定 值 集合 可 能 大 于 过 程 实际 产 
生 的 最 小 到 达 一定 值 集合 ， 则 这 种 分 析 是 保守 的 。 

但 是 ， 为 了 从 优化 中 获得 最 大 的 效益 ， 我 们 力求 使 数据 流 分 析 问 题 既是 保守 的 同时 又 尽 可 
能 是 激进 的 。 因 此 ， 我 们 将 总 是 企图 在 使 所 计算 的 信息 尽 可 能 是 激进 的 ， 同 时 又 是 保守 的 之 间 
走钢丝 ， 以 便 从 我 们 执行 的 这 些 分 析 和 代码 改善 的 转换 中 得 到 最 大 的 效益 ， 而 又 不 至 于 把 正确 
的 代码 转换 成 不 正确 的 代码 。 

最 后 ， 请 回顾 一 下 7.1 节 讨论 的 三 种 数据 流 和 控制 流 分 析 方法 ， 以 及 在 本 书 中 对 这 三 种 方 
法 都 作 介 绍 的 原因 ， 这 样 能 够 使 你 对 为 什么 我 们 决定 对 三 种 方法 都 于 以 介绍 有 更 深 的 理解 


8.1 一 个 例子 : 到 达 - 定 什 


作为 数据 流 分 析 的 入 门 ， 我 们 对 第 7 章 开始 的 那个 非 形 式 化 例子 继续 执行 一 种 简单 的 称 为 
到 达 - 定 值 的 数据 流 分 析 ， 我 们 从 图 7-3 和 图 7-4 的 流 图 开始 ， 分 析 在 那里 给 出 的 计算 斐 波 那 契 
数列 的 过 程 。 

一 个 定 值 是 对 某 个 变量 的 赋值 。 称 一 个 变量 的 某 个 特定 定 值 到 达 过 程 的 一 个 给 定点 ， 前 提 
是 如 果 存 在 从 这 个 定 值 到 那 一 点 的 一 条 执行 路 径 ， 使 得 这 个 变量 在 那 一 点 可 能 具有 由 该 定 值 赋 


予 的 值 。 我 们 的 目的 是 确定 每 一 个 变量 的 特定 定 值 ( 即 赋值 ) 中 ， 有 哪 一 些 可 能 通过 某 条 控制 


流 路 径 到 达 过 程 内 的 任意 一 个 特定 点 。 我 们 用 术语 控制 流 路 径 (control-flow path) 表示 过 程 的 
流程 图 中 的 任意 有 向 路 径 ， 通 常 不 管 该 路 径 上 控制 分 支 走向 的 谓词 是 否 满 足 。 

我 们 虽然 可 以 对 过 程 的 流程 图 执行 数据 流 分 析 ， 但 通常 更 有 效 的 做 法 是 将 它 分 解 为 局 部 数 
据 流 分 析 和 全 局 数据 流 分 析 ， 局 部 数据 流 分 析 针 对 每 一 个 基本 块 进行 ， 全 局 数据 流 分 析 针 对 流 
图 进行 。 为 此 ， 我 们 归纳 每 一 个 基本 块 的 数据 流 效 用 来 生成 局 部 信息 ， 并 将 它们 用 于 全 局 数据 
流 分 析 ， 由 此 产生 与 每 一 个 基本 块 的 入 口 和 出 口 对 应 的 信息 。 然 后 将 得 到 的 全 局 信息 与 局 部 信 
息 结合 起 来 ， 以 生成 到 达 任 意 基 本 块 内 每 一 个 中 间 语 言 结构 开始 点 的 定 值 集合 。 这 样 做 的 效果 
是 ， 它 常常 显著 地 减少 了 计算 数据 流 信 息 所 需要 的 步骤 ， 但 通常 有 少量 的 代价 ， 即 需要 从 基本 
块 的 开始 (或 结尾 ) 传播 这 个 信息 到 基本 块 中 需要 使 用 它 的 地 方 。 
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同样 地 ， 我 们 考虑 的 多 数 数据 流 分 析 问 题 关注 的 是 各 种 程序 对 象 常数 、 变 量 、 定 值 、 表 
达 式 等 ) 的 集合 ， 以 及 在 过 程 内 任意 一 点 这 些 对 象 的 什么 集合 是 合法 的 有 关 判 断 。 至 于 是 何 种 
对 象 及 合法 性 的 含义 则 取决 于 具体 的 问题 。 在 下 面 的 几 段 ， 我 们 用 两 种 方式 给 出 到 达 - 定 值 问 
题 的 形式 化 表示 ， 一 种 表示 使 用 集合 ， 另 一 种 表示 使 用 位 向 量 。 位 向 量 是 一 种 便于 计算 机 使 用 
的 集合 表示 ， 因 为 集合 的 并 、 交 和 补 运算 直接 与 位 向 量 的 按 位 或 、 与 和 非 运算 相对 应 。 

到 达 - 定 值 分 析 可 用 称 作 向 前 迭代 位 向 量 问 题 的 经 典 形式 来 进行 。“ 先 代 ” 是 因为 我 们 构 
造 了 一 组 表示 信息 流 的 数据 流 方程 ， 并 从 适当 的 初 值 集合 开始 ， 以 选 代 方式 来 求解 这 组 方程 ; 
“向 前 ”是 因为 信息 流 是 沿 着 程序 中 控制 流 边 的 执行 方向 流动 的 ， 而 “位 向 量 ” 是 因为 我 们 可 
以 用 一 个 1 (意味 着 它 可 能 到 达 给 定点 ) 或 0 (意味 着 它 不 能 到 达 ) 来 表示 一 个 定 值 ， 因 此 ， 可 
能 到 达 一 个 点 的 所 有 定 值 的 集合 可 以 用 一 个 位 串 或 位 向 量 来 表示 。 

一 般 而 言 ， 对 于 我 们 涉及 的 大 多 数 数据 流 分 析 问题 ， 一 
个 定 值 是 否 实际 到 达 另 外 的 某 点 是 递归 不 可 判定 的 
(recursively undecidable)。 另 外 ， 一 个 定 值 是 否 到 达 一 个 特定 点 
也 可 能 与 输入 数据 相关 。 例 如 ， 图 8-1C 代 码 第 4 行 的 说 明 语句 
中 ，i 的 定 值 是 否 实际 到 达 第 7 和 第 8 行 的 使 用 依赖 于 函数 f O 
的 参数 n， 而 第 7 行 j 的 定 值 是 否 实际 到 达 第 10 行 return 中 的 使 
用 ,依赖 于 while 循 环 是 否 会 终止 ， 而 这 一 般 也 是 递归 不 可 判 
定 的 。 于 是 ， 我 们 需要 区 分 两 种 情况 ， 一 种 是 我 们 能 够 确定 为 
假 的 情况 ， 另 一 种 是 或 者 知道 为 真 或 者 不 能 确定 的 情况 。 因 为 
基于 到 达 一 定 值 的 优化 依赖 于 可 能 为 真 的 情况 ， 因 此 我 们 遵循 
保守 的 做 法 ， 优 先 保证 程序 的 正确 性 ， 其 次 才 是 激进 的 优化 。 Ew mE 

表 8-1 给 出 了 图 7-3 流 程 图 中 的 定 值 和 它们 在 位 向 量 中 的 依赖 于 输入 数据 的 例子 
位 置 的 对 应 关系 。 于 是 ， 可 用 8 位 的 向 量 来 表示 程序 中 有 哪些 定 值 到 达 了 每 一 个 基本 块 的 开始 。 


表 8-1 图 7-3 流 程 图 的 位 向 量 的 位 置 、 定 值 及 基本 块 之 间 的 对 应 关系 
位 的 位 置 l 定 值 基本 块 
1 m 在 结 点 1 Bl 
2 f0 在 结 点 2 
| 3 f1 在 结 点 3 
4 i 在 结 点 5 B3 


5 f2 在 结 点 8 B6 
6 f0 在 结 点 9 
7 
8 


int g(int m, int i); 


int f(n) 
int n; 
int i = O, j; 
if (n == 1) i = 2; 
while (n > 0) { 
j=i+l; 
n = g(n,i); 


2 
3 
4 
5 
6 
7 
8 
9 
1 
1 











fl 在 结 点 10 
这 在 结 点 11 





显然 ， 对 于 entry 结 点 恰当 的 初始 条 件 是 没有 任何 定 值 到 达 它 ， 因 此 ，entry 入 口 处 合法 的 
定 值 集合 是 : 

RCHin(entry)- $ 
或 者 ， 表 示 成 8 位 的 向 量 为 : 

RCHin(entry) = «00000000 
进一步 ， 因 为 我 们 试图 确定 哪些 定 值 可 能 到 达 一 个 特定 点 ， 故 保守 的 〈 但 不 是 必须 的 ) 假 设 是 ， 
对 所 有 的 ;有 如 下 的 初始 值 : 
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RCHin(i) = 8 
或 

RCHin(i) = <00000000> 

现在 我 们 必须 弄 清 楚 流 图 中 每 一 个 结 点 对 位 向 量 中 的 每 一 位 具有 什么 影响 。 如 果 一 条 MIR [219 
指令 重新 定 值 了 由 给 定位 位 置 表示 的 那个 变量 ， 则 称 它 杀 死 (kill) 了 该 定 值 ， 否 则 称 保 留 
(preserve) 了 该 定 值 。 这 使 我 们 想到 定义 一 个 集合 (以 及 相应 的 位 向 量 )， 称 为 PRSV(i)， 它 表 


示 由 基本 块 i 所 保留 的 那些 定 值 。 容 易 看 出 ， 作 为 集合 (用 位 向 量 的 位 置 表 示 定 值 )， 有 ， 
PRSV(B1) = 14, 5,8) 


PRSV(B3) = (1,2, 3, 5, 6, 7} 
PRSV(B6) = {1} 
PRSV(i) = (1, 2, 3, 4, 5, 6, 7, 8} 其 中 i X: B1, B3, B6 


作为 位 向 量 则 为 (从 左 端 数 起 )， 
PRSV(B1) = (00011001) 
PRSV(B3) = (11101110) 
PRSV(B6) = (10000000) 
PRSV(i) = (11111111) 3b i # B1, B3, B6 


例如 ，PRSV(B1) 第 7 位 的 0 指出 基本 块 B1 杀 死 了 结 点 10 中 fi 的 定 值 ， 而 在 PRSV(BI1) 第 5 位 的 1 
指出 B1 没 有 杀 死 结 点 8 中 £2 的 定 值 。 有 些 书 ， 如 [AhoS86]， 使 用 KILL(O 一 一 与 PRSVO 相 反 的 集 
合 一 一 而 不 是 PRSVO。 

对 应 地 ， 我 们 定义 集合 和 位 向 量 GENGi)， 它 给 出 由 基本 块 ;生成 的 定 值 集合 S， 即 ， 在 基本 
块 中 有 过 赋值 有 随后 未 在 基本 块 中 被 杀 死 的 那些 定 值 组 成 的 集合 。 作 为 集合 ，GENO 的 值 是 

GEN(B1) = {1, 2, 3) . 

GEN(B3) = {4} 

GEN(B6) = (5,6, 7,8) 

GEN(i) =@ Hi B1, B3, B6 
而 作为 位 向 量 ， 它 们 是 

GEN(B1) = (11100000) 

GEN(B3) = (00010000) 

GEN(B6) = (00001111) 

GEN(i) = (00000000) #¢+ i 4 B1, B3, B6 

BUA, RANE LRA BAR ARIAL BE E ICTU BAAR bz RH ARCHout(i). fa] 
RCHin(i) 一 样 ， 对 所 有 的 i， 初 始 化 

RCHout(i)- Ø 
或 

RCHout(i) = «00000000» 


O 事实 上 , 因为 控制 无 法 从 包含 结 点 10 的 基本 块 ( 即 基本 块 B6) 流向 基本 块 B1， 因 此 ,我们 不 必 使 这 一 位 为 0， 
但 这 样 做 肯定 没有 坏处 。 

O 此 时 我 们 忽略 了 这 一 事实 ， 即 一 个 变量 的 某 些 定 值 是 无 二 义 的 ， 例 如 显 式 赋 值 ， 而 其 他 的 定 值 ， 如 通过 指针 
的 赋值 和 过 程 调用 ， 就 它们 对 特定 的 变量 可 能 有 、 也 可 能 没有 影响 ， 并 且 我 们 不 能 确定 它们 是 否 有 影响 的 意 
义 而 言 ， 是 有 二 义 的 。 这 个 过 程 中 没有 出 现 有 二 义 的 定 值 。 
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就 足够 了 。 
现在 ,一 个 定 值 可 以 到 达 基 本 块 i 的 末尾 ， 当 和 且 仅 当 它 要 么 在 基本 块 ; 内 出 现 ， 并 且 它 定 值 
的 变量 在 i 中 没有 被 重新 定 值 ， 要 么 它 可 能 到 达 i 的 开始 并 且 由 i 保留 其 定 值 。 这 个 表述 也 可 以 利 
用 集合 和 集合 运算 表示 为 : 
对 于 所 有 的 i, 
RCHout(i) = GEN(i) U (RCHin(i) N PRSV(i)) 
或 者 ， 利 用 对 位 向 量 的 位 逻辑 运算 表示 为 : 
对 于 所 有 的 i, 
RCHout(i) = GEN(i) V (RCHin(i) ^ PRSV(i)) 
一 个 定 值 可 能 到 达 基 本 块 的 开始 ， 条 件 是 如 果 它 可 以 到 达 i 的 某 个 前 驱 的 末尾 ， 即 ， 在 集合 的 
情形 下 ， 对 所 有 的 i, 
RCHin(i) = |) RCHout(j) 
jePred(i) 
或 者 ， 在 位 向 量 的 情形 下 ， 对 所 有 的 i， 
RCHin(i)= VM  RCHowut(j) 
jePred(i) 
为 了 求解 RCHin(D 和 RCHout(D) (位 向 量 ) 方程 组 ， 我们 简单 地 将 RCHin() 初 始 化 为 前 面 给 出 的 值 ， 
并 且 和 迭代 地 应 用 这 些 方程 直到 没有 进一步 的 变化 产生 。 为 了 理解 迭代 为 什么 能 产生 该 方程 组 的 可 接 
受 的 解 ， 我 们 将 在 下 一 节 对 格 和 不 动 点 夺 代 给 出 简要 介绍 。 在 应 用 了 这 些 方程 一 次 后 ， 我 们 得 到 


RCHout(entry) = (00000000) RCHin(entry) = (00000000) 
RCHout(B1) = (11100000) RCHin(B1) = (00000000) 
RCHout(B2) = (11100000) RCHin(B2) = (11100000) 
RCHout(B3) = (11110000) RCHin(B3) = (11100000) 
RCHout(B4) = (11110000) RCHin(B4) = (11110000) 
RCHout(B5) = (11110000) RCHin(B5) = (11110000) 
RCHout(B6) = (10001111) RCHin(B6) = (11110000) 
RCHout(exit) = (11110000) RCHin(exit) = (11110000) 
再 选 代 一 次 后 ， 我 们 有 
RCHout(entry) = (00000000) RCHin(entry) = (00000000) 
RCHout(B1) = (11100000) RCHin(B1) = (00000000) 
RCHout(B2) = (11100000) RCHin(B2) = (11100000) 
RCHout(B3) = (11110000) RCHin(B3) = (11100000) 
RCHout(B4) = (11111111) RCHin(B4) = (11111111) 
RCHout(B5) = (11111111) RCHin(B5) = (11111111) 
RCHout(B6) = (10001111) RCHin(B6) = (11111111) 
RCHout(exit) = (11111111) RCHin(exit) = (11111111) 
并 且 再 继续 迭代 不 会 发 生 改 变 ， 因 此 ， 上 面 的 值 就 是 解 。 


O ”我们 将 看 到 ， 这 实际 上 是 不 必要 的 ， 因 为 每 一 个 RCHEoxwt(D) 是 从 同一 个 基本 块 的 RCHin(D、GENCD 和 PRSYGD 
计算 出 来 的 ， 我 们 确实 完全 无 需 初始 化 RCHoui0) 的 值 。 
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注意 ， 执 行 迭 代 的 规则 决 不 会 将 1 变 为 0， 即 ， 它 们 是 单调 的 ， 因 此 ,我 们 能 保证 迭代 过 程 
最 终 确 实 会 终止 。 ' 

通过 这 个 数据 流 方 程 的 解 , 使 我 们 对 变量 的 哪些 定 值 可 以 到 达 哪 些 使 用 有 了 全 局 性 的 了 解 。 
例如 ， 它 说 明 在 基本 块 B1 中 对 E0 的 定 值 可 以 到 达 基 本 块 B5 中 f0 的 第 一 次 使 用 ， 并 且 在 沿 着 通 
过 基本 块 B2 的 执行 路 径 上 ， 变 量 1 和 f2 从 未 被 定 值 。 利 用 这 些 信息 来 优化 程序 的 一 种 方法 是 在 
沿 着 经 过 B2 的 路 径 上 避免 给 It 和 f2 分 配 存 储 ( 和 寄存 器 )。 . 

注意 ， 尽 管 上 面 提出 的 数据 流 方 程 容易 理解 ， 但 在 理论 上 实际 没有 理由 需要 同时 使 用 
RCHinO 和 RCHout() 两 个 函数 。 作 为 百代 ， 我 们 可 以 将 关于 RCHout0 的 方程 代入 到 关于 RCHin() 
的 方程 中 而 得 到 更 简单 的 方程 组 : 

对 于 所 有 的 i, 

RCHin(i) = |) (GEN()U(RCHin(j) N PRSV(j))) 

jePred(i) 


或 者 ， 对 于 所 有 的 i 
RCHin(i)= M (GEN(j)V (RCHin(j) A PRSV(j)) 


jePred(i) 
并 且 它 们 与 原 方程 组 具有 完全 一 样 的 解 。 但 是 实际 中 ， 在 选择 是 同时 使 用 RCREinO 和 RCEoxtO 
函数 ， 还 是 只 使 用 其 中 之 一 时 会 有 所 权衡 。 如 果 我 们 同时 使 用 两 者 ， 则 需要 双 倍 的 空间 来 表示 
数据 流 信 息 ， 但 却 减 少 了 所 需 的 计算 量 ; 因为 如 果 只 使 用 RCHin0 函 数 ， 我 们 需要 重复 地 计算 
GENÇ) U (RCHin(j) N PRSV(j)) 


即使 RCREin(O) 没 有 变化 也 如 此 。 而 如 果 同 时 使 用 RCREinO 和 RCHEoxtO， 我 们 能 立即 得 到 其 值 。 
8.2 ”基本 概念 : 格 、 流 函数 和 不 动 点 


现在 我 们 来 定义 数据 流 分 析 所 依赖 的 一 些 基 本 概念 。 在 每 一 种 情况 中 ， 数 据 流 分 析 都 是 通 
过 对 一 种 称 为 格 的 代数 结构 的 元 素 进行 运算 来 完成 的 。 格 的 元 素 代表 变量 、 表 达 式 ， 或 一 个 过 
程 所 有 可 能 执行 的 其 他 程序 设计 结构 的 抽象 性 质 一 一 这 种 性 质 与 输入 数据 值 无 关 ， 通 常 也 与 过 
程 流 经 的 控制 流 路 径 无 关 。 特 别 地 ， 多 数 数据 流 分 析 都 不 关心 程序 执行 条 件 的 真 假 ， 即 不 关心 
if 是 取 then 分 支 还 是 else 分 支 ， 也 不 关心 循环 的 执行 次 数 。 我 们 将 过 程 中 每 一 种 可 能 的 控制 
流 和 计算 结构 与 一 个 所 谓 的 流 函 数 关联 起 来 ， 这 个 流 函 数 将 每 个 结构 的 作用 抽象 成 对 应 的 格 元 
素 的 作用 。 | 

一 般 而 言 ， 格 LL 由 值 集合 和 两 个 运算 组 成 ， 基 中 一 个 运算 称 为 交 ， 记 作 n ， 另 一 个 运算 称 
为 并 ， 记 作 U， 并 且 满 足下 面 若干 性 质 : 

1. 对 于 所 有 x, y 《 L， 存 在 着 惟一 的 z 和 w € L， 使 得 xny=z 并 且 x Uy=w( 封 闭 性 )。 

2. 对 于 所 有 xz y €L, xnyosyrvidtHxuy-yuxOEi&fE). 

3. 对 于 所 有 zy ZEL, &nynz » x nonzjtReupyuz =xYUOUz)( 结 合 性 )。 

4. 工 中 存在 两 个 惟一 的 元 素 ， 一 个 称 为 底 (bottom )， 记 做 上 ， 另 一 个 称 为 项 (top), id 
做 T， 使 得 对 所 有 x EL, xn 上 = 上 并 且 xuT=T (存在 惟一 的 顶 元 素 和 底 元 素 )。 

许多 格 ， 包 括 我 们 使 用 的 除 用 于 常数 传播 (参见 12.6 节 ) 的 格 之 外 的 所 有 格 ， 都 是 可 分 配 
的 ， 即 ， 对 所 有 的 x, y, z6 工 ， , 

«nyuz -«uaznGuzijrBieuynz = rN) UO ND 
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我 们 使 用 的 大 部 分 格 以 位 向 量 作为 其 元 素 ， 它 的 并 和 交 运 算 分 别 是 “ 按 位 与 ”和 “ 按 位 或 ” 
运算 。 这 种 格 的 底 元 素 是 每 一 位 都 为 0 的 位 向 量 ， 顶 元 素 是 每 一 位 都 为 1 的 位 向 量 。 我 们 用 BV" 
表示 长 度 为 的 位 向 量 的 格 。 例 如 8.1 节 的 例子 中 ，8 位 的 位 向 量 形成 了 一 个 格 ， 其 中 ， 上 = 
<00000000>, T = <11111111>。 两 个 位 向 量 的 并 是 一 个 位 向 量 ， 如 果 这 两 个 位 向 量 对 应 位 中 
有 一 个 为 1， 则 此 位 向 量 相应 的 位 是 1， 否 则 是 0。 例 如 ， 

«00101111» u <01100001> = <01101111> 


与 到 达 - 定 值 例子 中 的 那个 格 类 似 的 一 个 格 如 图 8-2 所 示 ， 不 过 ， 它 的 位 向 量 只 有 3 位 。 

有 若干 种 方法 可 通过 组 合 简单 的 格 而 构造 出 另外 的 格 。 一 种 方法 是 乘积 运算 ， 它 按 元 素来 
组 合 两 个 格 。 PIA 2:18 A BIA ri fü AIL FLA RAR ( product ) » WAL, x 工 (ex. 
x> EL, n 《LL,}， 它 的 交 运 算 符 的 定义 为 : 

XX, KSN Yi Y> = ANY WN Yom 
并 运算 符 的 定义 也 类 似 。 乘 积 运算 可 自然 地 推广 到 两 个 以 上 的 格 ， 具体 地 讲 ， 我 们 前 面 提 及 的 
那个 格 BV" 就 是 z 个 只 含 底 元 素 0 和 项 元 素 1 的 格 BV=BV' = {0，1} 的 乘积 。 

在 有 些 情况 下 ， 用 位 向 量 来 表示 所 需 的 信息 是 不 受 欢迎 的 ， 或 不 够 的 。 整 数值 的 常数 传播 就 
是 不 希望 使 用 位 向 量 的 一 个 简单 例子 。 对 于 整数 值 常数 传播 ， 我 们 使 用 的 格 以 图 8-3 所 示 的 格 为 基 
础 ， 这 种 格 称 为 ICP， 它 的 元 素 是 上 、T 、 所 有 整数 及 所 有 布尔 量 ， 并 且 具 有 下 面 定义 的 性 质 : 

1. 对 所 有 的 n《 ICP, nn 上 = 上。 

| 2. 对 所 有 的 n E ICP, nuT=T. 

3. 对 所 有 的 n € ICP, nnn=nun=n。 

4. 对 所 有 的 整数 和 布尔 量 m, n € ICP, nmn, Wimnn = LJERmun- T. 

在 图 8-3 中 ， 两 个 元 素 的 交 是 从 这 两 个 元 素 开 始 沿 线 往 下 直到 它们 相交 点 而 得 到 的 值 ， 而 
两 个 元 素 的 并 是 从 这 两 个 元 素 开 始 沿线 往 上 直到 它们 相遇 而 得 到 的 值 。 


(111) 
(410) — (101) — (011) . T 


(100) (010) (001) false > -2 -1 0 1 2 «++ true 


(000) " 
图 8-2 一 个 三 元 素 位 向 量 的 格 图 8-3 整数 常数 传播 格 ICP 


位 向 量 可 按 下 面 所 述 方式 用 于 常数 传播 。 定 义 Var 是 感 兴趣 的 变量 名 的 集合 ， 令 Z 表 示 整 数 
集合 。 从 Var 的 有 限 子 集 到 Z 的 函数 集合 代表 了 对 程序 中 用 到 的 变量 的 每 一 种 可 能 的 常数 赋值 。 
每 一 个 这 种 函数 可 表示 成 一 个 无 穷 的 位 向 量 , 对 某 个 变量 v € Var, 常数 ce Z 组 成 的 每 一 对 <y，c>， 
这 个 位 向 量 相应 地 有 一 位 置 其 中 ， 如 果 v 具 有 值 c<， 则 此 位 置 为 1， 否 则 为 0。 这 种 无 穷 位 向 量 的 
集合 在 位 向 量 的 一 般 格 顺序 下 形成 了 一 个 格 。 显 然 这 个 格 比 ICP 要 复杂 得 多 : 它 的 元 素 是 无 穷 位 
向 量 ， 不 仅 像 ICP 那 样 宽度 是 无 穷 的 ， 它 的 高 度 也 是 无 穷 的 ， 这 导致 不 宜 用 公式 来 表示 它们 。 

有 些 数据 流 分 析 问 题 需要 比 位 向 量 复 杂 得 多 的 格 ， 例 如 Jones 和 Muchnick [JonM8 1a] HT fi 
述 类 LISP 数 据 结构 的 “形状 ”的 两 种 格 ， 其 中 一 种 格 的 元 素 是 正则 树 文法 ， 另 一 种 格 的 元 素 是 
复杂 的 图 。 
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从 格 的 图 形 表示 能 清楚 地 看 出 ， 交 和 并 运算 符 导致 了 值 之 间 的 一 种 偏 序 关 系 ， 记 做 三 。 这 
个 偏 序 关 系 可 利用 交 运 算 定义 为 : 


xEy, 4AM4xny=x 


或 者 ， 它 也 可 以 对 侦 地 利用 并 运算 来 定义 。 对 应 地 也 可 以 定义 相关 的 运算 C 、 和 习 。 很 容 
易 从 交 和 并 的 定义 导出 EE 的 下 述 性 质 ( 以 及 其 他 序 关系 的 性 质 ): 

1. 对 所 有 的 x, y, z， 如 果 x 王 y 并 且 yEz， 则 xEz( 传 递 性 )。 

2. 对 所 有 的 x, y, RRC y 并 且 yEx， 则 x=y( 反 对 称 性 )。 

3. 对 所 有 的 x, 有 x x( 自 反 性 )。 

映射 格 到 这 个 格 自 身 的 函数 ， 记 做 有 LL 一 L， 如 果 对 所 有 x、y， 有 x y= (Ef O), MER 
此 函数 是 单调 的 (monotone)。 例 如 ， 由 下 式 定义 的 函数 /| BV 一 BV 是 单调 的 ， 


fGx X2.x3>) = <x, 1 43> 
而 由 8(<000>)=<100> Filg(<x, x,x;>)= «000» 定义 的 函数 g: BV? 一 了 BV- 则 不 是 单调 的 。 

格 的 高 度 (height) 是 其 最 长 的 严格 上 升 链 的 长 度 ， 即 ， 使 得 存在 zu xs ox, S 

L=x,0%,0C Cx, =T 
的 最 大 的 x。 例 如， 图 8-2 和 图 8-3 中 两 个 格 的 高 度 分 别 是 4 和 3。 同 其 他 与 格 有 关 的 概念 一 样 ， 
高 度 也 可 以 对 偶 地 用 下 降 链 来 定义 。 我 们 使 用 的 几乎 所 有 的 格 都 具有 有 限 的 高 度 ， 正 是 由 于 这 
一 点 ， 再 加 上 单调 性 ， 便 保证 了 我 们 的 数据 流 分 析 算 法 能 够 终止 。 对 于 无 限 高 度 的 格 ， 必 须要 
证 明 分 析 算 法 会 停止 。 

在 考虑 数据 流 算法 的 计算 复杂 性 时 有 另 一 种 重要 的 表示 ， 即 相对 一 个 和 多 个 函数 的 有 效 高 
BE. BLABY L-LYA RAR (effective height) 是 通过 和 迭代 地 应 用 /0 而 获得 的 最 长 的 
Peet LAER BE, BN, (ETE TEX, =f Oy), xf Gs x foco. FB 

HOMO BC OX, tT 
的 最 大 的 n。 一 个 格 相 对 于 函数 集合 的 有 效 高 度 是 每 一 个 函数 的 有 效 高 度 中 的 最 大 值 。 

对 于 特定 数据 流 分 析 问 题 ， 流 函数 (flow function) 用 从 分 析 中 使 用 的 格 到 这 个 格 自身 的 
映射 来 模拟 程序 设计 语言 结构 的 作用 。 例 如 ，8.1 节 的 到 达 - 定 值 分 析 中 关于 基本 块 B1L 的 流 国 
SEAR: BV 一 BV' ， 它 由 下 式 给 出 : 

Fj (x4 X; X3 X4 Xs Xe X7 X>) = <1 1 1x4 x5 O00xe> 


我 们 要 求 所 有 流 函 数 都 是 单调 的 。 这 样 要 求 的 道理 是 ， 流 函 数 的 目的 是 模拟 程序 设计 结构 提供 
的 有 关 数 据 流 问题 的 信息 ， 因 此 ， 它 不 应 当 减 少 已 经 获得 的 信息 。 另 外 ， 对 于 证 明 我 们 所 考虑 
的 每 一 种 分 析 过 程 会 停止 ， 以 及 对 于 提供 计算 复杂 性 的 上 界 而 言 ， 单 调 性 也 是 必 不 可 少 的 。 

由 具体 的 流 函 数 所 模拟 的 程序 设计 结构 可 以 根据 我 们 的 需要 而 变化 ， 从 单一 的 表达 式 到 整 
个 过 程 。 因 此 ，8.1 节 例子 中 转换 每 一 个 RCHin(i) 到 RCHour(i) 的 函数 可 以 看 成 是 一 个 流 函 数 ， 
转换 整个 RCHin(i) 集 合 到 RCHout() 集 合 的 函数 也 可 以 看 成 是 一 个 流 函 数 。 

函数 A LLITS (fixed point) 是 一 个 元 素 z 《EL， 它 使 得 f (z)=z。 对 于 数据 流 方程 组 ， 
不 动 点 是 此 方程 组 的 解 ， 因 为 将 不 动 点 代入 方程 组 的 右 端 产生 相同 的 值 。 在 许多 情况 下 ， 定 义 
在 格 上 的 函数 可 以 有 多 个 不 动 点 。 这 种 情况 最 简单 的 一 个 例子 是 函数 BV-BV, ERAS (0) 
=0 和 f(1) 一 1。 显 然 ， 这 个 函数 的 0 和 1 都 是 不 动 点 。 

我 们 在 解数 据 流 方程 时 想 要 计算 的 值 是 所 谓 的 满足 全 路 径 (MOP, meet-over-all-path) 的 


解 。 直 观 地 ， 这 个 解 可 通过 如 下 方法 产生 : 在 流 图 入 口 结 点 (或 对 于 向 后 流 问 题 为 出 口 结 点 ) 从 “ 


具有 某 些 规定 的 信息 Init 开 始 ， 沿 入 口 结 点 (或 出 口 结 点 ) 到 流 图 中 每 一 个 结 点 的 所 有 可 能 路 


225 


B 
a 





166 K8* 


径 应 用 适当 的 流 函 数 的 合成 ， 并 对 每 一 个 结 点 得 到 的 结果 做 交 运 算 。 用 方程 来 表示 ， 关 于 向 前 
流 问 题 我 们 有 如 下 表述 。 令 G= <N, E> 是 一 个 流 图 。 令 Path(8) 表 示 从 entry 到 任意 结 点 B € N 
的 所 有 路 径 的 集合 ， 令 p 是 Path(8) 中 的 任意 元 素 。 令 Fs 0 表示 流 经 基本 块 B 的 函数 ，F, ORRI 
着 路 径 p 遇 到 的 流 函 数 的 合成 ， 即 ， 如 果 B, = entry，…，B,=B 是 组 成 到 8B 的 特定 路 径 p 的 基本 
块 ， 则 


Fy = Fen (oa -o Fpi 


令 Init 是 与 entry 基 本 块 相连 的 格 值 ， 则 满足 全 路 径 的 解 是 

MOP(B)= [] Fnit), 基 中 B=entry,Bi,.. Bn, exit 

pePatb(B) 

类 似 的 方程 可 表示 向 后 流 问 题 的 满足 全 路 径 的 解 。 

不 幸 的 是 不 难 证 明 ， 对 于 那 种 只 保证 流 函 数 是 单调 的 任意 数据 流 问 题 ， 可 能 不 存在 计算 关 
于 所 有 可 能 流 图 的 满足 全 路 径 的 解 的 算法 。 我 们 的 算法 计算 的 是 所 谓 的 最 大 不 动 点 (MFP， 
maximum fixed point) 解 ， 它 简单 地 说 就 是 这 些 数据 流 方程 的 解 在 底层 格 顺 序 中 的 最 大 值 ， 即 
提供 最 多 信息 的 解 。 对 于 其 中 所 有 流 函 数 都 是 可 分 配 的 数据 流 问题 ，Kildall [Kild73] 证 明了 我 
们 在 8.4 节 给 出 的 普通 迭代 算法 计算 出 的 是 MFP 解 ， 并 且 在 那 种 情况 下 ，MFP 和 MOP 解 是 相同 
的 。Kam 和 Ulliman [KamU75] 推 广 了 这 一 结论 以 证 明 对 于 其 中 流 函 数 都 是 单调 的 ， 但 不 必 是 可 
分 配 的 数据 流 问题 ， 此 友 代 算法 产生 MEFP 解 (但 不 一 定 是 MOP 解 ) 。 

在 继续 我 们 感 兴趣 的 各 种 数据 流 问题 以 及 如 何 解 它们 的 讨论 之 前 ， 我 们 先 花 一 点 时 间 讨 论 
将 数据 流 信息 与 流 图 的 基本 块 入 口 点 相连 ， 而 不 是 与 边 相 连 的 问题 。 前 者 是 多 数 文献 和 我 们 所 
知道 的 编译 器 的 标准 做 法 。 但 是 ， 有 少数 论文 将 数据 流 信 
息 与 流 图 的 边 相 连 。 这 样 做 的 效果 是 ， 在 某 些 情况 下 能 产 
生 更 好 的 信息 ， 主 要 是 因为 对 于 具有 多 个 前 驱 的 结 点 (或 
对 向 后 流 问 题 而 言 ， 具 有 多 个 后 继 的 结 点 )， 它 不 在 进入 
这 个 结 点 之 前 强制 合并 信息 。 

这 种 做 法 产生 较 好 的 信息 的 一 个 简单 例子 是 图 8-4 所 
示 的 常数 传播 例子 。 显 然 ，B4 中 赋 给 w 的 值 是 常数 3。 无 
论 是 将 信息 与 结 点 人 口 还 是 与 边 相 连 ， 我 们 都 知道 在 从 B2 
和 B3 出 来 时 ，u 和 v 都 具有 常数 值 。 如 果 我 们 做 常数 传播 
并 将 数据 流 信息 与 边 相 连 ， 则 保持 了 这 一 事实 ， 即 在 从 B2 
到 B4 的 边 上 ，u 的 值 为 1 而 v 的 值 为 2， 在 从 B3 到 B4 的 边 上 ， 
u 的 值 为 2 而 Vv 的 值 为 1!。 这 允许 B4 的 流 函 数 结合 这 些 不 同 ”图 8-4 将 数据 六 信息 与 边 相 连 比 与 结 
的 值 来 判定 在 B4 中 赋 给 w 的 是 常数 值 3。 但 是 ， 如 果 我 们 点 入 口 相 连 能 产生 更 好 结果 的 流 图 
将 数据 流 信息 与 结 点 入 口 相 连 ， 则 我 们 在 B4 入 口 处 所 知道 
的 是 u 的 值 和 v 的 值 都 不 是 常数 (在 两 种 情况 下 ， 值 是 1 或 者 2， 但 格 ICP 设 有 提供 从 T 区 分 信息 
的 途径 ， 而 且 即 使 提供 了 途径 ， 它 也 不 足以 使 我 们 能 判定 出 w 的 值 是 常数 )。 


8.3 数据 流 问 题 及 其 解决 方法 的 分 类 


数据 流 分 析 问 题 可 按 若 干 种 尺度 来 归 类 ， 这 些 尺度 包括 : 
1. 它们 所 提供 的 信息 ; 
2. 它们 是 有 关系 的 还 是 属性 无 关 的 ; 
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3. 它们 使 用 的 格 的 类 型 ， 以 及 格 元 素 所 代表 的 含义 和 在 这 些 格 上 定义 的 函数 ; 

4. 信息 流 的 方向 : 按 程序 执行 的 方向 (向 前 问题 )、 程 序 执行 的 反方 向 (向 后 问题 )， 还 是 
同时 两 个 方向 (双向 问题 )。 

几乎 我 们 考虑 的 所 有 例子 都 是 属性 无 关 (independent-attribute) 的 类 型 ， 即 ， 它 们 对 感 兴 


的 每 一 个 对 象 指定 一 个 格 元 素 ， 这 个 对 象 可 以 是 变量 定 值 ， 表 达 式 计算 ,或 其 他 的 任何 东西 。 


只 有 少数 的 ， 如 8.14 节 描述 的 结构 类 型 判定 问题 ， 要 求 在 每 一 点 用 一 个 关系 表示 过 程 的 数据 流 
状态 ， 这 个 关系 描述 变量 值 (或 某 种 类 似 事情 ) 之 间 的 关系 。 关 系 问 题 比 属性 无 关 问 题 的 计算 要 
复杂 得 多 。 

类 似 地 ， 我 们 考虑 的 几乎 所 有 问题 都 是 一 个 方向 的 ， 或 者 是 向 前 的 〈forward) ， 或 者 是 向 
& &) (backward). 3% (bidirectional) 问题 要 求 同 时 向 前 和 向 后 传播 ， 并 且 一 般 情况 下 将 其 
公式 化 和 求解 都 比 单 向 问题 要 复杂 。 幸 运 的 是 ， 在 优化 中 双向 问题 非常 少见 。 最 重要 的 双向 问 
题 的 实例 是 部 分 宛 余 消除 的 古典 公式 表示 (在 13.3 节 提 及 )， 即 使 它 已 被 13.3 节 介绍 的 更 为 现代 
的 只 使 用 单 向 分 析 的 形式 所 替代 。 

下 面 叙 述 的 是 一 些 与 程序 优化 有 关 的 最 重要 的 数据 流 分 析 问 题 。 在 每 一 种 情况 下 ， 当 第 一 
次 涉及 到 需要 使 用 这 种 数据 流 分 析 的 优化 时 ， 我 们 将 给 出 关于 优化 问题 及 其 方程 的 更 完整 描述 。 
到 达 一 定 值 (reaching definition) 

到 达 - 定 值 问题 确定 过 程 中 一 个 变量 的 哪些 定 值 ( 即 对 它 的 赋值 ) 可 以 到 达 该 变量 的 各 个 
使 用 。 如 我 们 已 看 到 的 ， 到 达 - 定 值 是 使 用 位 向 量 的 格 的 向 前 问题 ， 其 中 ， 位 向 量 的 每 一 位 对 
应 变量 的 一 个 定 值 。 

可 用 表达 式 (available expression ) 

可 用 表达 式 问题 确定 在 过 程 的 每 个 点 上 哪些 表达 式 是 可 用 的。 在 某 点 可 用 的 含义 是 指 : 从 
入 口 到 该 点 的 每 一 条 路 径 上 存在 着 该 表达 式 的 一 个 计算 ， 并 且 在 此 路 径 上 的 这 个 计算 之 后 到 该 
点 之 间 ， 出 现在 该 表达 式 中 的 所 有 变量 都 没有 被 重新 赋值 。 可 用 表达 式 是 位 向 量 上 的 格 的 向 前 
问题 ， 其 中 ， 位 向 量 的 每 一 位 对 应 表达 式 的 一 个 定 值 。 
活跃 变量 (live variable) 

对 于 给 定 的 变量 和 程序 中 给 定 的 点 ， 活 跃 变 量 问题 确定 
沿 着 此 点 到 出 口 的 路 径 上 是 否 存 在 对 该 变量 的 使 用 。 这 是 
一 个 使 用 位 向 量 的 向 后 问题 ， 其 中 ， 变 量 的 每 一 个 使 用 在 
位 向 量 中 有 一 个 位 置 。 

向 上 暴露 使 用 (upwards exposed use) 

此 问题 确定 在 特定 点 上 哪些 变量 的 使 用 可 以 由 特定 的 定 
值 而 到 达 。 这 是 一 种 使 用 位 向 量 的 向 后 问题 ， 一 个 变量 的 
每 一 个 使 用 在 位 向 量 中 相应 地 有 一 位 。 它 是 到 达 - 定 值 的 对 
偶 问 题 ， 到 达 - 定 值 连接 定 值 到 使 用 ， 而 向 上 暴露 使 用 连接 
使 用 到 定 值 。 注 意 这 两 者 是 不 同 的 ， 如 图 8-5 所 示 ， 其 中 x 在 
B2 中 的 定 值 到 达 B4 和 B5 的 使 用 ， 而 在 B5 中 的 使 用 是 由 B2 . 
和 B3 中 的 定 值 所 到 达 的 。 图 8-5 说 明 到 达 一 定 值 与 向 上 暴 器 
复写 传播 分 析 (copy-propagation analysis) 使 用 之 间 不 同 的 例子 

复写 传播 分 析 确 定 从 一 个 复写 赋值 ， 比 如 说 x~y， 到 变量 x 的 一 个 使 用 的 每 一 条 路 径 
上 都 不 存在 对 y 的 赋值 。 这 是 一 个 使 用 位 向 量 的 向 前 问题 ， 位 向 量 的 每 一 位 表示 一 个 复写 
赋值 。 
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常数 传播 分 析 (constant-propagation analysis) 

常数 传播 分 析 确 定 从 对 一 个 变量 的 常数 赋值 ， 比 如 说 x ~const， 到 x 的 一 个 使 用 的 每 一 条 路 
径 上 ， 对 x 的 赋值 都 只 是 此 常数 值 const。 这 是 一 个 向 前 流 问题 。 在 这 个 问题 的 古典 形式 中 ， 它 
使 用 每 个 变量 有 一 个 位 置 的 向 量 ,使 用 的 值 取 自 8.2 节 讨论 的 格 ICP"， 或 者 取 自 元 素 选 自 其 他 
适当 数据 类 型 的 类 似 的 格 。 在 这 个 问题 的 稀有 条 件 形式 中 (参见 12.6 节 )， 它 使 用 一 种 类 似 的 
格 ， 但 每 个 定 值 有 一 个 格 值 ， 并 且 是 符号 执行 ， 而 不 是 简单 的 数据 流 分 析 。 

部 分 宛 余 分 析 (partial-redundancy analysis) — 

部 分 元 余 分 析 确 定 在 某 条 执行 路 径 上 被 执行 了 两 次 (或 多 次 )， 而 其 操作 数 在 这 些 计算 之 
间 没 有 修改 过 的 那些 计算 。 在 Morel 和 Renvoise 最 早 给 出 的 公式 表示 中 ， 这 是 一 个 使 用 位 向 量 
的 双向 流 问 题 ， 位 向 量 的 每 一 位 表示 一 个 表达 式 计算 。 这 个 问题 的 最 新 公式 表示 已 表明 可 以 用 
一 系列 的 向 前 和 向 后 数据 流 计 算 来 实现 它 。 

在 优化 中 遇 到 的 不 仅仅 是 上 面 列 出 的 这 些 数据 流 问 题 ， 但 它们 是 其 中 最 重要 的 一 些 问题 。 

解数 据 流 问题 有 多 种 方法 ， 包 括 如 下 儿 种 (关于 详细 的 原文 信息 ， 参见 8.16 节 ): 

1. Allen 的 强 连通 区 域 方法 ; 

2. Kildall 的 迭代 算法 ( 见 8.4 节 ); 

3. Ulliman 的 71-72 分 析 ; 

4. Kennedy 的 结 点 列表 算法 ; 

5. Farrow、Kennedy 和 Zucconi 的 图 形 文法 方法 ; 

6. 消去 法 ， 例 如 区 间 分 析 ( 见 8.8 节 ); 

7. Rosen 的 高 级 (语法 制导 的 ) 方法 ; 

8. 结构 分 析 ( 见 8.7 节 ); 

9. 位 置式 (slotwise) 分 析 ( 见 8.9 节 )。 

我 们 这 里 关注 三 种 方法 : (D 简 单 选 代 法 ， 包 括 关 于 确定 迭代 次 序 的 若干 策略 ; (2) 消 去 法 
或 利用 区 间 的 基于 控制 树 的 方法 ; (3) 另 一 种 使 用 结构 分 析 的 基于 控制 树 的 方法 。 如 我 们 将 看 
到 的 ， 这 些 方法 在 实现 的 容易 度 、 速 度 与 空间 的 要 求 ， 以 及 增 量 式 地 更 新 数据 流 信息 以 避免 完 
全 重新 计算 它们 等 方面 都 有 较 好 的 表现 。 此 外 ， 对 其 他 方法 ， 如 新 近 引 入 的 位 置式 分 析 ， 我 们 
也 稍 作 评论 。 


8.4 迭代 数据 流 分 析 


和 迭代 数据 流 分 析 是 我 们 在 8.1 节 的 例子 中 执行 到 达 - 定 值 分 析 时 使 用 过 的 方法 。 我 们 先 介绍 
它 是 因为 它 最 容易 实现 ， 而 且 也 是 最 频繁 使 用 的 方法 。 这 种 方法 也 是 一 种 重要 的 基本 方法 ， 因 
为 8.6 节 讨论 的 基于 控制 树 的 方法 需要 能 对 代码 的 非 正 常 ( 或 非 可 归 约 ) 代码 区 域 进行 迭代 分 
析 ( 或 进行 结 点 分 割 ， 或 进行 函数 格 上 的 数据 流 分 析 )。 
我 们 首先 介绍 向 前 分 析 的 迭代 实现 方法 。 此 方法 不 难 推广 到 向 后 和 双向 问题 。 
假设 我 们 有 一 给 定 的 流 图 G =<N，E> 和 一 个 格 L， 流 图 G 有 属于 N 的 入 口 结 点 entry 和 出 
口 结 点 exit。 我 们 希望 对 所 有 的 Be N， 计 算 in(8)，out(B8)《 L， 其 中 in(B) 表 示 进 入 B 的 入 口 时 
的 数据 流 信息 ，out(B) 表 示 从 B 出 口 时 的 数据 流 信息 ， 它 们 由 下 面 的 数据 流 方程 给 出 : 
Init 4$ B=entry 
in(B) — [1 out(P) 否则 
PePred(B) 


out(B) = Fg(in(B)) 
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JKrpInitoR BA bis SBR BPA. Fe 0 表示 与 执行 基本 块 B 对 应 的 数据 流 信息 转 
换 ， 口 模拟 合并 进入 基本 块 的 边 的 数据 流 信 息 的 效果 。 当 然 ， 这 也 可 以 只 用 ia0 国 数 表示 为 : 


Init X B=entry 
in(B)={ [| Fetin(P)) 否则 
PePred(B) 


如 果 U 模拟 合并 流 信息 的 效果 ， 则 用 它 代 替 算 法 中 的 mn 。72ait 的 值 通常 是 T 或 上 。 

图 8-6 给 出 的 算法 Worklist_Iterate() 只 使 用 in0 和 函数， 读者 可 以 很 容易 地 将 它 修改 为 
同时 使 用 inO) 和 out()。 算 法 的 策略 是 迭代 地 应 用 上 面 给 出 的 定 值 方程 ， 维 护 一 张 工 作 表 记录 其 
前 驱 的 in0 值 在 最 后 一 次 迭代 发 生 了 改变 的 基本 块 ， 直 到 此 工作 表 为 空 。 开 始 时 ， 这 个 工作 表 
包含 流 图 中 除 entry 之 外 的 所 有 基本 块 ， 排 除 entry 是 因为 它 的 信息 不 会 发 生 改 变 。 因 为 合并 
进入 一 个 结 点 的 边 的 信息 的 效果 是 由 口 来 模仿 的 ， 故 totaleffect 的 适当 初 值 是 T 。 函 数 Fs 
WMF (B, x) 来 表示 。 


procedure Worklist Iterate(N,entry,F,dfin,Init) 
N: in set of Node 
entry: in Node 
F: in Node x L —>L 
dfin: out Node —> L 
Init: in L 
begin 
B, P: Node 
Worklist: set of Node 
effect, totaleffect: L 
dfin(entry) := Init 
Worklist := N - {entry} 
for each B e N do 
dfin(B) := T 
od 
repeat 
B := eWorklist 
Worklist -= {B} 
totaleffect := T 
for each P € Pred(B) do 
effect := F(P,dfin(P)) 
totaleffect n= effect 
od 
if dfin(B) * totaleffect then 
dfin(B) := totaleffect 
Worklist U- Succ(B) 
fi 
until Worklist = f 
end || Worklist Iterate 





图 8-6 和 迭代 数据 流 分 析 的 工作 表 算 法 (管理 工作 表 的 语句 用 星 号 标志 ) 


这 个 算法 的 计算 效率 与 若干 因素 有 关 ， 包 括 格 L、 流 函数 Fs 0， 以 及 管理 工作 表 的 方法 。 
尽管 格 和 流 函 数 是 由 我 们 求解 的 数据 流 问题 确定 的 ， 但 工作 表 的 管理 与 所 求解 的 数据 流 问 题 无 
关 。 注 意 ， 管 理工 作 表 与 我 们 如 何 实现 图 8-6 中 标 有 星 号 的 语句 相对 应 。 最 容易 的 实现 方法 是 
用 栈 或 队列 来 表示 工作 表 ， 而 不 管 基本 块 之 间 在 流 图 结构 中 的 相互 关系 。 另 一 方面 ， 如 果 我 们 
， 先 处 理 一 个 基本 块 的 所 有 前 驱 ， 则 每 次 遇 到 这 个 基本 块 时 ， 我 们 能 够 期 待 有 关于 此 基本 块 的 最 
有 效 的 信息 。 通 过 先 按 前 一 章 介绍 的 次 序 ， 即 逆 后 序 对 结 点 进行 排序 ， 然 后 按 队列 继续 ， 则 可 
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以 达到 这 一 目的 。 因 为 按 后 序 ， 一 个 结 点 直到 它 的 所 有 深度 为 主 生成 树 的 后 继 都 已 经 访问 过 后 
才 会 被 访问 ， 而 按 逆 后 序 ， 则 它 在 其 所 有 后 继 还 未 被 访问 之 前 访问 。 如 果 4 是 流 图 G 中 任意 无 
环 路 径 上 后 向 边 的 最 大 条 数 ， 则 在 使 用 逆 后 序 时 ，repeat 循 环 通过 4+2 饥 就 足够 了 。 注 意 ， 
构造 出 4 的 数量 级 为 1N 1 的 流 图 是 有 可 能 的 ， 但 实际 中 很 少见 。 几 乎 所 有 的 情况 下 A4<3， 并且 
常常 4 二 1。 表 8-2 图 7-4 中 流 图 的 流 惠 数 

作为 向 前 迭代 算法 的 一 个 例子 ， 我 们 重复 曾 在 Featsy = id 
8.1 节 非 形式 化 做 过 的 例子 。 图 7-4 中 各 个 基本 块 的 eignen = (111x4xs00x) 

流 函 数 如 表 8-2 所 示 ， 其 中 id 表 示 恒 等 函数 。 所 有 基 Fro = id 
本 块 的 dfFn(B) 的 初 值 是 <00000000>。 路 径 合 并 运算 Fpa((X1X2X3X4X5X6XIX8)) = (xixaxa3lxsxex70) 
符 是 U ， 或 在 位 向 量 情况 下 是 按 位 逻辑 或 。 控 递 后 5i 
序 ， 初 始 工作 表 为 {B1, B2, B3, B4, B5, B6, exit}. Fas = id 

进入 repeat 循 环 时 ，B 的 初 值 是 B81， 此 时 工 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
作 表 变 成 {B2, B3, B4, BS, B6, exit}。B1 的 惟一 前 驱 是 entry， 计 算 effect 和 
totaleffect, 结果 得 到 <00000000>，dfin (B1) 的 初 值 没 有 改变 ， 因 此 ，B1 的 后 继 不 放 到 
工作 表 中 。 

然后 ， 我 们 得 到 B=B2， 并 且 工 作 表 变 成 {B3 ，B4，B5，B6，exit}。B2 的 惟一 前 驱 是 P 
= Bl1， 计 算 effect 和 totaleffect 的 结果 是 <11100000>， 它 成 了 dfin (B2) 的 新 值 ， 并 且 
exit 被 加 入 到 工作 表 中 产生 {B3, B4, B5, B6, exit). 

接 下 来 ， 我 们 得 到 B= B3 ， 工 作 表 变 成 1B4, BS, B6, exit}。B3 有 一 个 前 驱 ， 即 B1， 计 算 
effect 和 totaleffect 的 结果 是 <11100000>， 它 成 了 dfin (B3) 的 新 值 ， 并 且 B4 被 加 到 工 
les. 

之 后 ， 我 们 得 到 B=B4， 工 作 表 变 成 TB5, B6, exit} 。B4 有 了 两 个 前 驱 ，B3 和 B6， 由 于 计算 
eftfect、totaleffect 和 afin(B4) 时 ，B3 贡 献 了 <11110000>，B6 和 贡献 了 <00001111> ， 因 此 ， 
这 个 迭代 的 最 终 计 算 结果 是 afin (B4) =<11111111>， 并 且 工 作 表 变 成 {B5，B6，exit}。 

接着 ，B= BS, 工作 表 变 成 {B86, exit}。B5 有 一 个 前 驱 B4， 它 给 effect、 
totaleffect 和 dfin(B5) 贡 献 了 <11111111>， 并 且 exit 被 加 到 工作 表 中 。 

接着 ，B = B6， 工作 表 变 成 {exit}。B6 有 一 个 前 驱 B4， 它 给 dfin (B6) 贡 献 了 
<11111111>， 并 且 B4 被 放 回 到 工作 表 中 。 

现在 ， 从 工作 表 中 去 掉 exit， 其 结果 为 {B4}， 并且 B4 的 两 个 前 驱 B2 和 B5 导 致 
dfin(exit)-«llllllil». 

读者 可 以 检查 repeat 的 循环 体 对 工作 表 中 的 每 一 个 元 素 执行 了 两 次 以 上 ， 但 最 后 一 次 迭代 
计算 中 afin O 值 没有 进一步 的 改变 。 你 也 可 以 检查 这 个 结果 与 8.1 节 计算 出 来 的 结果 是 相同 的 。 

一 旦 我 们 适当 地 形成 了 向 后 问题 ， 就 不 难 转变 上 面 这 个 算法 用 于 处 理 向 后 问题 。 我 们 可 以 
选择 将 向 后 问题 的 数据 流 信息 与 每 一 个 基本 块 的 入 日 相连 ， 也 可 以 与 它 的 出 口 相 连 。 为 了 利用 
向 前 和 向 后 问题 之 间 的 对 侦 性 ， 我 们 选择 将 它 与 基本 块 的 出 口 相连 。 

同 向 前 问题 一 样 ， 假 定 有 一 给 定 的 流 图 G=<N, E> 和 一 个 格 L， 流 图 G 有 属于 N 的 入 口 结 点 
entry 和 出 口 结 点 exit。 我 们 希望 对 所 有 的 BE N， 计 算 out(B8) EL， 其 中 oui(8) 表 示 从 B 出 品 
时 的 数据 流 信息 ， 它 们 由 下 面 的 数据 流 方程 给 出 : 


FB6((x1x2X3X4X5X6X7X8)) = (x10001111) 


日” 如 果 我 们 追踪 每 一 遍 中 其 数据 流 信息 发 生 了 改变 的 基本 块 的 个 数 ， 而 不 是 简单 地 追踪 是 否 有 改变 ， 这 个 上 界 
可 减 到 4+1。 
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Init 4 B=exit 
out(B) = [] in(P) 否则 
PeSucc(B) 


in(B) = Fg(out(B)) 
其 中 ，Init 表 示 从 过 程 出 口 时 数据 流 信息 的 适当 初 值 ，Fs 0 表示 与 反 向 执行 基本 块 B 对 应 的 数据 
流 信息 转换 ，n 模 拟 合 并 从 一 个 基本 块 出 来 的 各 条 边 的 数据 流 信息 的 效果 。 同 向 前 问题 一 样 ， 
它们 也 可 以 只 用 out0 函 数 来 表示 : 
Init l 4 B=exit 


oxt(B)= 1 [| FeowP») em 
PeSucc(B) 


RAUB BNR, MAE RRA. 

现在 ， 向 后 问题 的 迭代 算法 除了 有 适当 的 替换 之 外 ， 与 图 8-6 给 出 的 向 前 问题 的 算法 是 相 
同 的 。 这 种 替换 是 : ours thin, exitMihentry, Succo PredO. FH ULERKAAHA 
法 是 按 逆 前 序 对 它 进 行 初始 化 ， 因 此 计算 效率 的 上 界 与 向 前 迭代 算法 相同 。 
8.5 流 函 数 的 格 

就 像 我 们 将 执行 数据 流 分 析 的 对 象 看 成 是 格 的 元 素 一 样 ， 我 们 在 执行 这 种 方法 中 使 用 的 流 
函数 集合 也 形成 了 一 个 格 ， 它 的 交 和 和 并 是 由 底层 格 的 交 和 并 诱导 出 来 的 。 如 我 们 在 8.6 节 将 看 
到 的 ， 单 调 流 函 数 的 诱导 格 对 于 将 基于 控制 树 的 数据 流 方法 公式 化 非常 重要 。 

具体 地 ， 令 工 是 一 个 给 定 的 格 ， 令 亚 表 示 所 有 从 世 到 工 的 单调 函数 的 集合 ， 即 ， 

SELP4AM4 vx y €L x cy S Bf WES o) 
则 Lr 上 诱导 出 的 点 态 交 运算 由 下 式 给 出 : 

Vf,geL*', VxeL(fng)-fGo)ng Qo) 
并 且 容 易 验证 对 应 的 诱导 并 运算 和 序 函 数 都 有 适当 的 定义 ， 由 此 确定 了 L" 确实 是 一 个 格 。L™ 
的 顶 元 素 和 底 元 素 是 1 和 T”， 其 定义 为 

VxeLli'G)- LETxX)=T 

为 了 提供 进行 基于 控制 树 的 数据 流 分 析 所 需要 的 运算 ,我们 需要 对 L" 多 定义 一 个 函数 和 两 
个 运算 。 这 个 额外 的 函数 就 是 恒 等 函 数 id， 共 定义 为 id(x) -x, vx 《LL。 两 个 运算 是 合成 和 克 林 
(HWER) 闭 包 。 对 于 任意 两 个 函数 /，g eL', f 和 8g 的 合成 记 做 fo g， 由 下 式 定 义 : 

(f o 8)(x)=f (g(x)) 
容易 证 明 LF 的 合成 是 封闭 的 。 同样 ， 对 任意 的 Fe LF, BATES "为 

f°=id 且 对 n>1, f"=f of"-! 
f€ LTRS ZA & (Kleene closure) 记 做 f*， 其 定义 是 : 

Vx€Lf*()- lim(idnf) w) 
同样 按 惯例 ， 我 们 定义 f =f 。f*。 为 了 证 明 L" 在 克 林 闭 包 中 是 封闭 的 ， 我 们 依赖 于 这 样 一 个 
事实 ， 即 ， 对 我 们 使 用 的 所 有 函数 ， 我 们 的 格 都 具有 有 限 的 有 效 高 度 。 这 意味 着 如 果 对 任意 xo 
eL, i HEU 
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则 存在 着 一 个 i 使 得 x xu. Blk, BRAS *(x0) =x, 


容易 证 明 如 果 L 是 位 向 量 的 格 ， 比 如 说 BV"， 则 对 每 一 个 函数 # BV" BV", f 对 交 和 并 是 
强 可 分 配 的 (strongly distributive), Bil, 

Vx, yf eUD HUOH eny =f 0 Nf 0) 
同样 ， 只 要 各 个 位 的 位 置 是 相互 独立 改变 的 ， 同 我 们 考虑 的 所 有 位 向 量 分 析 情 形 一 样 ，BV" 就 
具有 有 效 高 度 1， 即 fof=f， 所 以 ，f*=idnf。 如 我 们 在 下 一 节 将 看 到 的 ， 这 使 得 用 位 向 量 表 
示 的 基于 控制 树 的 数据 流 分 析 具 有 非常 高 的 效率 。 


8.6 基于 控制 树 的 数据 流 分 析 


基于 控制 树 的 数据 流 分 析 (control-tree-based data-flow analysis) 有 两 种 算法 ， 即 ， 区 间 分 
析 和 结构 分 析 ， 因 为 它们 都 基于 使 用 7.6 节 和 7.7 节 讨论 的 控制 树 ， 所 以 两 者 非常 相似 。 它 们 比 
和 迭代 方法 更 难 实现 一 为 了 处 理 非 正常 区 域 (如 果 出 现 这 种 区 域 的 话 ) ， 它 们 需要 进行 结 点 分 
割 、 挝 代 ， 或 解 单调 函数 格 上 的 数据 流 问 题 一 一 但 它们 的 优点 是 使 得 以 增 量 方式 随 着 优化 转换 
过 程 对 程序 的 改变 而 更 新 数据 流 信 息 较 容易 。 

由 于 历史 的 原因 ， 基 于 控制 树 的 方法 作为 一 个 整体 统称 为 消去 法 (elimination method). 
它们 需要 对 过 程 的 控制 树 进行 两 遍 处 理 ， 其 中 假定 控制 树 已 经 由 前 面 提 到 的 结构 或 区 间 控 制 流 
分 析 而 建立 。 每 一 遍 它 们 都 访问 控制 树 中 的 每 一 个 结 点 : 第 一 遍 自 底 向 上 执行 ， 即 从 基本 块 开 
始 ， 它 们 构造 一 个 表示 过 程 某 一 部 分 执行 效果 的 流 函数 ， 过 程 的 这 一 部 分 对 应 于 控制 树 的 一 部 
分 ; 第 二 遍 自 项 向 下 执行 ， 即 从 表示 整个 过 程 的 抽象 结 点 和 从 对 应 于 入 口 (对 向 前 问题 或 出 口 
(对 向 后 问题 ) 的 初始 信息 开始 ， 它 们 利用 在 第 一 饥 构 造 的 流 函 数 ， 构 造 和 计算 传播 数据 流 信息 
进入 和 通过 每 一 个 控制 树 结 点 所 表示 的 区 域 的 数据 流 方程 。 


8.7 结构 分 析 


结构 分 析 (structural analysis) 使 用 由 结构 控制 流 分 析 得 出 的 控制 结构 的 详细 信息 来 产生 
相应 的 数据 流 方 程 ， 这 些 数据 流 方程 表示 控制 结构 的 数据 流 效果 。 我 们 从 结构 分 析 开 始 是 因为 
它 较 易于 描述 和 理解 ， 并 且 一 旦 具备 了 它 需要 的 所 有 机 制 ， 则 区 间 分 析 需 要 的 所 有 机 制 就 只 是 
它们 的 子 集 。 ` 
8.7.1 结构 分 析 : 向 前 问题 

首先 ， 假 定 我 们 执行 的 是 向 前 问题 一 一 如 将 看 到 的 ， 向 后 问题 稍微 麻烦 一 点 ， 因 为 每 一 个 
控制 流 结构 只 有 一 个 人 口 ， 但 却 可 以 有 多 个 出 口 。 同 迭代 算法 一 样 ， 我 们 也 假定 用 口 来 模仿 数 
据 流 信息 在 几 条 控制 流 路 径 交 汇 的 地 方 合并 的 效果 。 

在 执行 结构 数据 流 分 析 过 程 中 ， 我 们 在 第 一 遍 遇 到 的 抽象 图 多 数 都 是 图 7-35 和 图 7-36 所 示 
类 型 的 简单 区 域 。 基 本 块 的 流 函数 FF 与 迭代 分 析 中 的 流 函 数 相同 一 一 流 函 数 只 与 要 解 的 问题 和 
基本 块 的 内 容 有 关 。 

现在 ， 假 设 我 们 有 一 个 1f-chen 结 构 ， 如 图 8-7 所 示 ， 并 且 每 一 个 结构 的 流 函 数 在 离开 这 
个 结构 的 边 上 给 出 ， 则 第 一 饥 为 它 构造 的 流 函 数 Fr.cnon 与 1.f-then 的 两 个 分 量 的 流 函 数 有 关 : 

Fit-tnen ~ (Ftnen © Fis) Fiem 
即 ， 执 行 1f-then 结 构 的 效果 是 将 执行 if 部 分 并 从 Y 分 支出 口 之 后 执行 上 then 部 分 的 效果 ， 与 
执行 1£ 部 分 并 从 N 分 支出 口 的 效果 (用 路 径 合 并 运算 符 m ) 合并 的 结果 。 
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Fif-then 


图 8-7 if-then 结 构 的 结构 分 析 流 函数 


注意 ， 我 们 可 以 区 分 从 iE 的 Y 和 N 的 出 口 并 且 使 它们 具有 不 同 的 流 函 数 Fisjy 和 F;sjn， 也 可 
以 不 区 分 。 假 若 选 择 不 区 分 它们 ， 如 在 前 面 的 迭代 分 析 表 示 中 一 样 ， 我 们 将 简单 地 只 有 一 个 关 
于 if 的 流 函 数 ， 即 F;:， 而 不 是 Fis Ae MEA 

Fi ¢-then = (Finen Fis) N Fig = (Finen N id) o Fig 
两 种 方法 都 是 合法 的 一 一 在 i£ 的 两 个 分 支 区 别 对 待 我 们 感 兴趣 的 数据 流 值 的 情况 下 ， 同 常数 传 
播 或 边界 检查 的 例子 一 样 ， 前 者 可 以 产生 比 后 者 更 为 精确 的 信息 。 但 在 以 后 的 例子 中 ， 我 们 按 
习惯 做 法 使 用 后 一 种 方法 。 

第 二 遍 构造 的 数据 流 方 程 告诉 我 们 ， 如 何 将 已 知 的 进入 if-then 结 构 的 数据 流 信息 传播 
到 它 的 每 一 个 子 结构 的 入 口 。 这 些 数据 流 方程 是 相当 明显 的 : 

in(if)=in(if-then) 

in(then) = F,, ,(in(it)) 
或 者 ， 如 果 我 们 选择 不 区 分 i£ 的 出 口 ， 则 : 

in(if)-in(if-then) 

in(then) = F,,(in(if)) 
上 面 第 一 对 方程 中 的 第 一 个 方程 说 的 是 ， 在 if 部 分 的 入 口 ， 我 们 具有 的 数据 流 信 息 与 在 ifE- 
then 结 构 的 入 口 具 有 的 信息 相同 。 第 二 个 方程 说 的 是 在 then 部 分 的 入 口 ， 我 们 具有 的 信息 是 
根据 if 部 分 从 Y 分 支 离 开 时 的 数据 流 效 果 ， 对 if 入 口 的 信息 进行 转换 后 的 结果 。 除 了 没有 对 从 
if 部 分 的 出 口 进行 区 别 外 ， 第 二 对 方程 与 第 一 对 方程 是 相同 的 。 








图 8-8 if-then-else 结 构 的 结构 分 析 流 函数 


下 面 我 们 考虑 如 何 将 这 种 处 理 扩展 到 if-then-else 结 构 ， 以 及 如 何 扩展 到 while 循 环 。 
if-then-else 的 形式 如 图 8-8 所 示 ， 它 的 函数 很 容易 从 if -上 then 情形 的 函数 推广 得 出 。 在 第 
一 遍 构 造 的 流 函 数 Fs_tnen_e1se 与 如 下 分 量 的 流 函 数 有 关 : 

Fit-tnen-e1se = (Finen ° Fig) N (Ferse © Fits) 


第 二 遍 构造 的 传播 函数 是 : 
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in(if)  —in(if-then-else) 

in(then) = Fig sy(in(if)) 

in(else) = Fig /yGn(3£)) 

eH FwhilefA, RNAS OMRHEK. CARA LBP, RAHA UR Il 
到 其 人口 点 的 结果 的 流 函 数 是 已 .ave Fuiaiev， 因 此 这 样 重复 任意 次 的 结果 由 这 个 函数 的 克 林 闭 
包 给 出 : 


* 
Fy oop = (Froay o Fniile/y) 


并 且 执 行 整 个 while 循 环 的 结果 由 重复 地 执行 while 和 body 块 ， 然 后 执行 while 块 并 从 N 分 
支 离 开 而 给 出 ， 即 ， 


Fnile-100p = Fwnite/n © Floop 


Fwhile/N 





while-loop 


Fwhile-loop 





Fbody 
图 8-9 ”while 循 环 的 结构 分 析 流 函数 

注意 ， 在 更 常见 的 情形 中 ， 即 位 向 量 问题 ， 

(Froay © Foner) 
简单 的 是 

id N (Proay o white/y) 
但 无 论 要 求解 的 是 什么 向 前 流 问题 ， 上 面 的 方程 都 是 正确 的 。 在 自 顶 向 下 遍 中 ， 对 此 while 循 
环 ， 我 们 有 

in(while)=F,,.,(in(while-loop)) 

in(body) = Fyyiie;y(inQwhile)) 
这 是 因为 到 达 while 部 分 既 可 以 从 循环 之 外 ， 也 可 以 从 迭代 内 ， 而 到 达 pbody 部 分 则 只 能 通过 
进入 循环 ， 同 时 还 要 执行 while 和 body 块 若干 次 (可 能 0 次 )， 并 通过 Y 分 支 离 开 while 块 。 

同样 ， 如 果 我 们 不 区 分 出 口 分 支 ， 则 有 

Floop= (Fooay 9 Fas) 
并 且 执 行 整个 whi le 循环 的 结果 由 重复 地 执行 while 和 bodqy 块 ， 然 后 执行 while 块 并 从 N 分 
支 离 开 给 出 ， 即 ， 

Fyhile-loop = Fwhile ° Floop 

= Fyhile ° (Fbody ° Funiie)' 

in(while) = Figop(n(while-loop)) 

in(body) = FahiieCGn(while)) 

从 if-then 和 if-then-else 的 情形 应 当 清 楚 如 何 推广 这 些 方程 到 一 般 的 无 环 区 域 4。 具 
体 地 ， 假 设 构成 无 环 区 域 的 抽象 结 点 是 B0, B1, …, Bmn， 其 中 B0 是 区 域 的 入 口 结 点 ， 并 且 每 一 个 
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Bi 具有 出 口 Bi /1，…，Bi/ex( 当 然 ， 多数 情况 下 e;=1， 而 且 它 大 于 2 的 情况 很 少见 )。 按 习惯 的 
做 法 ， 对 每 一 个 离开 它 的 Bi/e 相 连 一 个 向 前 流 函 数 Fsy.， 并 令 P(4，Bi/eD 表 示 从 4 的 入 口 到 4 中 
某 个 抽象 结 点 的 出 口 Bii le, 的 所 有 可 能 路 径 的 集合 。 对 于 自 底 向 上 遍 ， 已 知 路 径 

p=BO/eo, Bile, t, Bi,le, € P(A, Bi,/e,) 
则 此 路 径 的 合成 流 函 数 是 


Fp = FBis /es ©*** © FBi Je, © FBio/eo 


并 且 从 4 的 入 口 到 从 Bii /er 出 口 的 结 点 的 所 有 可 能 路 径 对 应 的 流 销 数 是 
FaBue- [| F 
peP(A,Bi,/eg) 
对 于 自 顶 向 下 遍 ， 对 于 i*0 的 及 的 入 口 ， 令 P, (A, Bi) 表 示 所 有 使 得 Bj € Pred(Bi) B. A Bile 
通 向 Bi 的 P(4, Bj/e) 组 成 的 集合 。 则 
in(A) 车 i 二 0 
in(Bi) = [1 Fa,jjey(in(A)) 否则 
P(A,Bj/e) eP(A,Bi) 
对 于 是 正常 区 域 的 一 般 有 环 区 域 C, 存在 着 一 条 从 某 个 基本 块 Bc 通 向 入 口 基 本 块 B0 的 回 边 。 
如 果 我 们 去 掉 这 条 回 边 ， 结 果 是 一 个 无 环 区 域 。 同 上 面 一 样 处 理 ， 我 们 构造 出 从 C 的 入 口 到 这 
个 无 环 区 域 中 Bi le, 的 所 有 可 能 路 径 对 应 的 流 函 数 ， 其 中 的 无 环 区 域 是 通过 去 掉 回 边 而 得 到 的 。 
这 给 了 我 们 一 组 流 函 数 F。s,。,，， 并 且 特 别 地 ， 如 果 Bc/e 是 此 回 边 的 尾 结 上 点， 函数 
Fiter = F(C,Be/e) 
表示 执行 该 区 域 体 一 次 迭代 的 结果 。 于 是 ， 
Fe= E, 
表示 执行 该 区 域 并 返回 到 其 入 口 的 完整 的 数据 流 效果 ， 而 


Fc pi je) = F(,Big/ey) 9 Fc 


表示 执行 该 区 域 并 从 Bii /ex 离开 的 效果 。 相 应 地 ， 对 于 自 顶 向 下 饥 ， 
in(C) 8 i=0 

in(Bi) = [1 Fic iolin(B0)) 否则 

P(C,Bj/e)ePp(C,Bi) 

WARE MRR, ERIS bi, Bea 4875 Be A AC BEY 
那些 方程 类 似 ， 它 们 表示 的 是 从 区 域 的 入 口 到 其 内 任意 点 的 路 径 上 的 数据 流 效果 。 在 自 顶 向 下 
遍 中 ， 我 们 按 习 惯 的 方法 从 区 域 和 口 拥 有 的 信息 开始 ， 使 用 自 底 向 上 遍 构 造 的 函数 ， 按 习惯 的 
方法 将 数据 流 信息 传播 到 区 域 的 每 一 点 。 这 些 方程 与 无 环 情况 下 的 方程 之 间 的 主要 不 同 是 ， 非 
正常 区 域 R 的 自 顶 向 下 系统 是 递归 的 ， 因 为 这 种 区 域 包含 多 个 环 路 。 给 定 了 方程 组 后 ， 我 们 可 
以 按 如 下 三 种 方法 继续 处 理 : 

1. 我 们 可 以 使 用 结 点 分 割 ， 结 点 分 割 能 将 非 正 常 区 域 转变 为 具有 更 多 (可 能 很 多 ) 结 点 的 正 
常 区 域 。 

2. 我 们 可 以 用 选 代 方式 来 解 递 归 方 程 组 ， 这 种 方法 在 每 次 解数 据 流 问 题 时 ， 利 用 外 层 结构 
的 方程 所 产生 的 信息 作为 我 们 在 R 的 入 口 处 的 初始 数据 。 

3. 我 们 可 以 将 方程 组 本 身 看 成 不 是 定义 在 格 L 上 ， 而 是 定义 在 格 L" 上 (我 们 在 8.5 节 讨论 过 
的 从 工 到 工 的 单调 函数 组 成 的 格 ) 的 向 前 数据 流 问 题 ， 并 且 解 这 个 方程 组 ， 由 此 产生 与 该 区 域内 
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量 问题 ， 均 能 满足 这 个 条 件 。 

例如 ， 考 虑 图 8-10 中 的 简单 非 正常 区 域 ， 假 设 如 图 8-10 所 
示 那 样 归 约 这 个 区 域 到 B1a， 则 对 Fi,。 的 自 底 向 上 方程 是 : 

Fpia = ((Fp3 o Fp2)* o Fp1) N ((Fpa o Fp2)’ o Fpa o Fe1) 
因为 按 向 前 方向 通过 B1a 的 行程 有 两 种 情况 ， 一 是 由 B1 到 B2 ， 
再 到 B3 出 口 ， 或 在 B2、B3 之 间 循 环 多 次 后 由 B3 出 口 ; 二 是 由 
B1 到 B3 出 口 ， 或 在 B3 、B2 之 间 循 环 0 次 或 多 次 后 由 B3 出 口 。 对 图 8-10 一 个 非 正常 区 域 
于 自 顶 向 下 方程 ， 得 到 的 是 递归 方程 组 : 

in(B1) — in(B1a) 

in(B2) = Fg4 (in(B1)) n Fga(in(B3)) 

in(B3) = Fg4 (in(B1)) N Fg2 (£n (B2)) 
或 者 ， 我 们 能 在 函数 格 中 求解 关于 in(B2) 和 in(B3) 的 方程 ， 产生 

in(B2) = (((Fp3 o Fr)” o Fp1) n ((Fpa o Fp2)’ o Fp3 o Fg1)) n(B1)) 

= ((Fpa o Fg2)' o (id n Fpa) o Fp1)(in(B1)) 





和 
in(B3) = (((Fp2 o Fg3)* o Fg1) N ((Fg2 o Fga)' o Fp2 o Fg1)) (in(B1)) 
= ((Fg3 0 Fpo)* o(idn Fp2) o Fg4) n(B1)) 


作为 向 前 结构 数据 流 分 析 的 一 个 例子 ， 我 们 继续 使 用 我 们 的 到 达 — 定 值 例子 。 首 先 ， 我 们 
必须 对 它 进行 结构 控制 流 分 析 ， 如 图 8-11 所 示 。 在 此 数据 流 分 析 的 自 底 向 上 壳 中 ， 我 们 构造 的 
第 一 个 方程 是 关于 while 循 环 的 方程 ， 如 下 所 示 ( 因 为 在 计算 到 达 - 定 值 中 区 别 Y 和 N 出 口 没 有 
产生 不 同 ， 因 此 忽略 了 它们 ): 

Fpaa = FB4aoe(FB6。FB4) = Fpa o (id N (Fpe o Fga)) 

其 他 的 方程 是 ， 对 于 被 归 约 到 B3a 的 块 : 

FB3a = Fps ° Fp4a ° FB3 
对 于 被 归 约 到 B1a 的 1f-then-else: 

Fpi1a = (Fg2 o Fp1) N (FB3a o Fg) 

对 于 被 归 约 到 entrya 的 块 : 

Fentrya = Fexit © FBia ° Fentry 
如 我 们 将 看 到 的 ， 数 据 流 分 析 中 实际 上 并 没有 使 用 最 后 一 个 方程 。 

在 自 顶 向 下 遍 中 ， 我 们 为 entrya 块 的 三 个 分 量 构造 的 方程 是 

in(entry) = Init 

in(Bla) = Fentry(in(entry)) 

in(exit) = Fp,q(in(Bia)) 

对 于 归 约 到 B1a 的 ifE-then-else 块 的 各 个 分 量 ， 其 方程 是 : 
in(B1) = in(B1a) 

in(B2) = in(B3a) = Fp1 (in(B1a)) 

对 于 归 约 到 B3a 的 块 的 各 个 分 量 ， 其 方程 是 : 


in(B3) = in(B3a) 
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in(B4a) = Fg3(in(B3a)) 
in(B5) = FB4a(in(B4a)) 

对 于 归 约 到 B4a 的 while 循 环 的 各 个 分 量 ， 其 方程 是 : 
in(B4) = (Fgg o FB4) (in(B4a)) = (id n (Fpe o Fpa)) (in(B4a)) 
in(B6) = Fga(in(BA)) 


while block 
一 一 一 





if-then- 


else block 
一 B1a 一 一 一 [entrya] 





图 8-11 我 们 的 到 达 - 定 值 例子 的 结构 数据 流 分 析 
. ia(entzy) 的 初 值 和 各 个 块 的 流 函 数 与 前 面 迭 代 方 法 中 的 相同 〈 参 见 表 8-2)。 我 们 在 手工 
求解 关于 ia0 值 的 方程 中 ， 第 一 步 是 简化 关于 复合 流 函 数 的 方程 ， 具 体 如 下 : 
FB4a = Fpa o (Fpe o Fpa)” 
= Fga o (id n (Fpe o Fga)) 
= id o (id n (Fgg o id) 
= id n Fgg 


FB3a = Fes o Fp4a o FB3 
= id o (id n Fgg) o FB3 
= (id n Fpgg) o Fg3 
= Fpaa ° FB3 
FBla= (Fg2 o Fg1) N (FB3a ° FB1) 
= (id o Fp1) N ((id n Fge) o Fg3 o Fp1) 
= Fp1 N (id N Fgg) o Fp3 o FB1) 
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我 们 然后 从 in(entry) 开 始 ， 并 利用 Fs 0 函数 的 有 效 值 来 计算 in0 的 值 ， 其 结果 值 如 表 8-3 所 示 。 
读者 可 以 验证 每 个 基本 块 的 in0 值 与 从 代 方法 (8.1 节 ) 所 计算 的 in0 值 是 相同 的 。 
表 8-3 ”由 结构 分 析 计 算出 来 的 关于 我 们 的 到 达 一 定 值 例 子 的 in() 值 


in(entry) - «00000000» 
in (B1) - <00000000> 
in (B2) = <f1100000> 
in (B3) = <11100000> 
in (B4) = <11111111> 
in(B5) = «11111111» 
in (B6) = <11111111> 
in(exit) = <11111111> 


8.7.2 结构 分 析 : 向 后 问题 


如 前 一 节 开 始 时 提 及 的 ， 对 向 后 问题 进行 结构 分 析 要 困难 一 点 ， 因 为 我 们 使 用 的 控制 流 结 
构 虽 然 保证 了 每 一 个 结构 只 有 一 个 人 口 ， 但 没有 保证 一 定 只 有 一 个 出 口 。 





Bif-then-else 





图 8-12 if-then-else 结 构 的 向 后 结构 分 析 的 流 函 数 


对 于 具有 单一 出 口 的 结构 ， 如 if-then 或 1f-then-else， 我们 可 以 简单 地 “逆转 ”向 
前 问题 中 的 方程 。 给 定 图 8-12 中 的 if-then-else， 自 底 向 上 遍 中 为 向 后 流 经 此 if-then- 
else 而 构造 的 方程 是 

Bif-then-else = (Big/y ° Bthen) N (Bif /N° Belse) 
自 顶 向 下 遍 中 构造 的 方程 是 

out(then) = out(if-then-else) 

out(else) = out(if-then-else) 

out(if) = Bthen(out(then))N Be1se(out(else)) 


对 于 一 般 的 无 环 区 域 4， 再 次 假设 构成 此 无 环 区 域 的 抽象 结 点 是 80, B1, …, Bn。 令 BO 是 区 
域 的 入 口 结 点 ， 并 且 每 一 个 Bi 具有 入 口 Bi/1, …, Bi/e;( 当 然 ， 多 数 情况 下 e;= 1 或 2， 而 且 大 于 2 的 
情况 很 少见 )。 对 每 一 个 Bi 和 它 的 入 口 e 相 连 一 个 向 后 流 函 数 Bs， 并 令 P(Bi, le,, Bi, /el ) 表 示 从 
某 个 Bii /ei 到 Bi Je, 的 所 有 可 能 的 (向 前 ) 路 径 的 集合 。 对 于 自 底 向 上 遍 ， 给 定 某 条 路 径 p € P(Bi, 
/eu Bi /el)， 该 路 径 的 复合 向 后 流 函 数 是 


Bp = Baise, © . - - 0 BBiye, 


定义 Exits(4) 是 区 域 4 的 出 口 基本 块 集合 ， 即 ，Bi € Exits(4) 当 且 仅 当 存 在 Bj € Succ(Bi) 使 得 Bj €A. 
Wi JA Bi, /er 到 所 有 可 能 从 区 域 4 出 口 的 结 点 的 路 径 所 对 应 的 向 后 流 函 数 是 
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B(A,Bi, Je) = [1 Bp 
peP(Bi,/e,,Bij/e1) 
BijeExits(A) 


XT B US TOR. FRET MRAM ORB, REAREA Bout(Bj/) 5 ERE. 
AP, (A, Bi) 表 示 所 有 使 得 Bj € Succ(Bi) HBk € Exits(A) HORS £5 P(Bjle, BIARRA. Wu, 
out(A) 1i Bi € Exits(A) 
out(Bi) = [1] B(ajjeg(out(Bk)) 在 则 
P(Bj/e,Bk/f )eP.(A,Bi) 
对 于 是 正常 区 域 的 一 般 有 环 区 域 C， 我 们 将 前 面 无 环 区 域 的 方法 与 正常 循环 区 域 的 向 前 问 
题 的 方法 结合 起 来 。 对 于 这 种 区 域 ， 同 样 存在 着 一 条 从 某 个 基本 块 Bc 通 向 入 口 基 本 块 80 的 回 
边 。 如 果 我 们 去 掉 这 条 回 边 ， 便 得 到 一 个 无 环 区 域 。 对 于 这 个 去 掉 回 边 而 得 到 的 无 环 区 域 ， 我 
们 构造 它 的 从 C 的 所 有 出 口 结 点 到 结 点 Bii le, 的 所 有 可 能 的 (向 后 ) 路 径 对 应 的 向 后 流沙 数 ， 
这 使 我 们 得 到 一 组 流 函 数 及 -ww ， 并 且 特 别 地 ， 如 果 Bc/e 是 回 边 的 头 结 点 ， 国 数 


B,, = B. Bele) 
表示 该 区 域 体 执行 一 次 迭代 的 结果 。 于 是 ， 
B. = B,, 


表示 执行 该 区 域 并 返回 到 其 人 口 的 完整 的 向 后 数据 流 效果 ， 而 


i 
Bic, Big/e,) = BiC,Big/ex) © Bc 


表示 从 该 区 域 的 出 口 结 点 到 其 内 的 某 个 结 点 Bi 反 向 执行 该 区 域 的 向 后 数据 流 效果 。 相 应 地 ， 
对 于 自 顶 向 下 人 遍 ， 对 于 从 C 的 Bj 出 口 的 任意 基本 块 ， 我 们 使 数据 流 信 息 out(Bj) 与 之 相连 ， 并 且 
对 于 该 区 域内 的 每 一 个 结 点 Bi， 如 下 所 示 有 
out(C) # Bi € Exits(C) 
out(Bi) — [1 B(c,pje(out(Bk)) 否则 
P(Bj/e,Bk/f Ye P«(C,Bi) 

其 中 ，P,(C, Bi 和 P(Bj/e, BU 的 定义 与 前 面 无 环 区 域 的 定义 相同 。 

非 正常 区 域 向 后 问题 的 处 理 与 它们 的 向 前 问题 的 处 理 类 似 。 我 们 构造 相应 的 一 组 递归 数据 
流 方程 ， 并 采用 结 点 分 割 方法 迭代 地 解 它们 ， 或 者 作为 LE 上 的 数据 流 问 题 来 解 它 们 。 令 人 感到 
意外 的 是 ， 函 数 格 上 的 数据 流 问题 在 这 里 变 成 了 向 前 问题 ， 而 不 是 向 后 问题 。 

作为 向 后 问题 的 例子 ， 考 虑 图 8-13 中 由 B0 到 B5 组 成 的 区 域 A。 令 p 是 路 径 B0/1、B1/1、 
B3/1、B4/1， 则 B, 由 下 式 给 出 

Bp = Bgoj1 o Bg1/1 © Bp3/,i o BB4/1 
从 B0/1 到 A 的 两 个 出 口 的 路 径 是 

p1 = B0/1, B1/1, B3/1, B4/1 

p2 — B0/1, B1/1, B3/2, B5/1 

p3 = B0/2, B2/1, B3/1, B4/1 

p4 = B0/2, B2/1, B3/2, B5/1 

p5 — B0/2, B2/2, B5/1 
并 且 从 A 的 所 有 出 口 到 B0/1 的 向 后 流 函 数 是 
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Bia Bo/1) = Bp1 N Bp2 r1 Bp3 N Bpa N Bps 
= Bgoji © Bg1/1 ° Bg3/1 ° BB4/1 
T! BBgo/ı © Bg1/1 ° Bg3y2 ° BB5/1 
T! Bpo/2° Bg2/1 ° BB3/1 ° BB4/1 
n Bgoj; ° BB2/1o Bp3/2° BB5/1 
n Bpgo;2 ° Bg2/2 o BB5/1 
out (B0) 的 值 是 
out(BO) = By1(out(B4)) N Bp; (out(B5)) N By3(out(B4)) N Bga(out(B5)) 
m Bps(out(B5)) 
= Bpoji(Bpij1(Bpa1 (Beas (out(B4))))) 
n Bgo/1(Bgi/1(Bg3/2(Bps/1 (o“t(B5))))) 
N Bpo,2(Bpa/i (Bpa1 (Bpa 1 (out (B4))))) 
nm BBo/z(BB2/1(BB3/2(BB5/1(oxtB5))))) 
n Bgo/2(Bp2/2(Bps 1 (o#t(B5)))) 


Component = enum {if,then,else} 
FlowFcn = Var —> Lattice 


procedure ComputeF if then else(x,r) returns FlowFcn 
x: in FlowFcn 
r: in integer 
begin 
y: FlowFcn 
y := ComputeF if(x,Region No(r,if)) 
return ComputeF_then(y,Region_No(r,then) ) 
n ComputeF_else(y,Region_No(r,else) ) 
end || ComputeF_if_then_else 


procedure ComputeIn then(x,r) returns FlowFcn 
x: in FlowFcn : 
r: in integer 
begin 
return ComputeF_if (ComputeIn if(x,r),r) 
end || ComputeIn then ` 





图 8-13 用 于 向 后 结构 分 析 的 一 个 无 环 区 域 A 图 8-14 if-then-else 的 结构 数据 流 方程 的 部 分 代码 表示 


8.7.3 结构 分 析 方 程 的 表示 
结构 分 析 中 使 用 的 方程 有 两 种 类 型 : (1) 用 于 简单 形式 (如 if-then-else 或 while 循 环 ) 
的 方程 ， 这 种 简单 形式 的 方程 可 直接 用 实现 它们 的 代码 表示 ; (2) 用 于 复杂 形式 (如 非 正 常 区 
域 ) 的 方程 。 
图 8-14 给 出 了 一 个 表示 简单 结构 的 代码 例子 。 对 于 一 种 简单 结构 的 每 一 种 可 能 的 分 量 ， 类 型 
component 含 有 一 个 用 于 标识 它们 的 标识 符 ; 这 里 我 们 已 限制 它 包含 的 是 if-then-else 的 分 
量 。 类 型 FlowFcn 表 示 从 变量 到 格 值 的 函数 。 数据 流 分 析 给 每 一 个 区 域 的 入 口 点 指定 一 个 这 样 的 
函数 。ComputeF_if_then_else() 的 参数 r 存 放 区 域 编号 ， 结构 的 每 一 个 分 量 都 有 这 样 一 个 编 
&. mBÜRegion No: integer x Component ~ integer 返 回 给 定 区 域 的 给 定 分 量 的 区 域 编号 。 
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复杂 形式 在 数据 流 分 析 器 中 可 用 各 种 方法 来 表示 。 一 种 相对 简单 并 具有 时间 和 空间 效率 的 
方法 是 使 用 具有 两 种 类 型 结 点 的 图 ， 其 中 一 种 类 型 的 结 点 表示 in(8) 的 值 和 Fs 的 值 ， 另 一 种 类 型 
的 结 点 表示 合成 “o”、 交 “n”、 并 “UL “”、 克 林 闭 包 “*”、 非 空 闭 包 “+”， 以 及 函数 应 用 
“0” 等 运算 。 注 意 ， 函 数 应 用 结 点 表示 对 其 右 子 图 应 用 它 的 左 子 图 给 出 的 函数 ， 而 合成 运算 
结 点 表示 它 的 左 子 图 和 右 子 图 的 合成 。 图 8-15 展 示 了 图 8-10 中 非 正 常 区 域 B1a 的 部 分 方程 的 图 
形 表示 。 这 种 表示 使 得 可 用 一 个 简单 的 解释 器 作用 于 这 些 方程 来 分 析 它 们 所 对 应 的 区 域 。 


in(B1) 





图 8-15 图 8-10 中 区 域 B1a 的 部 分 结构 数据 流 方程 的 图 形 表 示 


注意 , 流 图 中 有 一 部 分 需要 经 过 解释 来 表示 , 这 并 不 意味 着 它 的 所 有 部 分 都 需要 经 过 解释 。 
例如 ， 如 果 我 们 有 一 个 简单 的 循环 ， 其 循环 体 是 一 个 包含 if-then-else 结 构 的 非 正常 区 域 ， 
则 我 们 可 以 执行 关于 该 循环 和 if-then-else 的 代码 ， 而 对 非 正常 区 域 使 用 解释 器 。 


8.8 区 间 分 析 


我 们 已 经 建立 了 进行 结构 数据 流 分 析 的 所 有 机 制 ， 现 在 执行 区 间 分 析 就 简单 了 : 区 间 分 析 
除了 只 有 三 种 类 型 的 区 域 之 外 ， 它 与 结构 分 析 是 相同 的 。 这 三 种 类 型 的 区 域 是 : 一 般 无 环 区 域 、 
正常 区 域 和 非 正常 区 域 。 


acyclic 
eee [emery] 





图 8-16 我 们 的 到 达 — 定 值 例子 的 区 间 控 制 流 分 析 


作为 一 个 例子 ， 考 虑 原来 在 图 7-4 中 的 流 图 ， 现 在 我 们 在 图 8-16 中 重新 将 它 给 出 ， 同 时 还 
给 出 了 对 它 的 区 间 归 约 。 第 一 步 归 约 由 B4 和 B6 组 成 的 循环 到 结 点 B4a， 第 二 步 归 约 第 一 步 产 
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生 的 无 环 结 构 到 单个 结 点 entrya。 对 应 的 向 前 数据 流 函 数 如 下 : 
Fp4a = Fpa o (Fpg o Fga)' 
= Fp4 o (id n (Fgg o Fg) 
= id o (id n (Fgg o id)) 
= id n Fgg 
Fentrya = Fexit o (Fp2n (Fps o Fgaa o Fg3)) o Fg Fentry 
关于 in0 的 方程 如 下 : 


in(entry) = in(entrya) = Init 


in(B1) 三 Fentry(in(entry)) 

in(B2) = Fg Gn(B1)) 

in(B3) = Fp1(in(B1)) 

in(B4a) = FgaGn(B3)) 

in(B4) = in(B4a) n (Fgg o Fg4) (in(B4a)) 


= in(B4a) n (id N (Fpe o id) (in(B4a)) 
= in(B4a) n in(B4a) N Fpe (n (B4a)) 


= in(B4a) r1 Fpg(in(B4a)) 
in(B6) = Fpa(lin(B4)) 

= in(B4) 
in(B5) = Fpqa(in(B4a)) 


= (Fpa o (id n (Fgg o Fg4))) Gn(B42)) 
= id(in(B4a)) n id(Fgg(id (in(B4a)))) 
= in(B4a) r1 Fgg(in(B4a)) 
in(exit) = FpgoGn(B2)) n FggGn(B5)) 
BARNERA, CS ERIA Hit Bin A. 
表 8-4 区间 分 析 为 我 们 的 到 达 一 定 值 例子 计算 的 in () 值 


in(entry) = <00000000> 
in (B1) = <00000000> 
in (B2) = <11100000> 
in (B3) = <11100000> 
in (B4) = <1111}111> 
in (B5) = <11111111> 
in (B6) z <11111111> 
in(exit) = <11111111> 





8.9 其 他 方法 


Dhamdhere、Rosen 和 Zadeck 介 绍 了 一 种 新 的 数据 流 分 析 方法 ， 他 们 称 之 为 位 置式 
(slotwise) 分 析 [DhaR92]。 赫 代用 长 向 量 来 表示 变量 或 其 他 类 型 程序 结构 的 数据 流 特征 和 用 前 面 
描述 的 方法 之 一 对 位 向 量 进行 运算 ， 他 们 分 开 考 虑 向 量 中 的 每 一 个 位 置 ， 并 同时 考虑 所 有 位 向 
量 中 相应 的 位 置 。 也 就 是 说 ， 首 先 考虑 通过 一 个 过 程 时 在 所 有 位 向 量 的 第 一 个 位 置 发 生 了 什么 
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情况 ， 然 后 考虑 第 二 个 位 置 ， 依 此 类 推 。 对 于 某 些 数据 流 问题 ， 这 种 方法 没有 什么 用 处 ， 因 为 
为 了 计算 其 他 位 向 量 中 一 个 位 置 的 值 ， 它 们 需要 结合 来 自 两 个 以 上 位 向 量 的 不 同位 置 的 信息 。 
但 是 对 于 诸如 到 达 - 定 值 和 可 用 表达 式 等 许多 问题 ， 在 过 程 的 特定 点 ， 每 一 个 位 置 只 与 其 他 点 
的 这 个 位 置 有 关 。 进 一 步 ， 例 如 对 于 可 用 表达 式 问 题 ， 在 多 数 地 方 ， 大 多 数位 置 中 的 信息 默认 
值 是 0(= 不 可 用 )。 这 两 者 结合 起 来 便 使 得 位 置式 方法 非常 具有 吸引 力 。 


8.10 du 链 、ud 链 和 网 


dug ( 定 值 -使 用 链 ) 和 ud 链 (使 用 - 定 值 链 ) 是 关于 变量 数据 流 信息 的 稀疏 表示 。 一 个 
变量 的 du 链 (du-chain) 连接 该 变量 的 定 值 到 它 的 所 有 可 能 流 经 到 的 使 用 ， 而 ud 链 (ud-chain) 
连接 一 个 使 用 到 所 有 可 能 流 经 到 该 使 用 的 定 值 。 通 过 观察 图 8-5 的 例子 可 看 出 这 两 者 之 间 的 差 
别 。 基 本 块 B2 中 关于 x 的 定 值 的 du 链 包 括 基 本 块 B4 和 B5 中 的 使 用 ， 而 基本 块 B3 中 定 值 的 x 的 du 
链 只 包括 基本 块 B5 中 的 使 用 。 在 基本 块 B4 中 关于 x 的 使 用 的 ud 链 只 包含 B2 中 的 定 值 ， 而 基本 
块 B5 中 关于 x 的 使 用 的 ud 链 包 含 了 B2 和 B3 两 处 中 的 定 值 。 

抽象 地 说 ，ud 链 或 du 链 分 别 是 从 变量 和 基本 块 位 置 偶 对 到 基本 块 位 置 偶 对 集合 的 函数 ， 每 
一 个 使 用 或 定 值 对 应 一 个 集合 ， 具 体 地 ， 它 们 一 般 用 链表 来 表示 。 可 以 通过 求解 过 程 的 到 达 - 
定 值 数 据 流 问 题 ， 然 后 利用 得 到 的 信息 建立 链表 来 构造 它们 。 一 旦 建立 了 链表 ， 就 可 以 释放 到 
太一 定 值 位 向 量 ， 因 为 这 些 链 表示 的 是 相同 的 信息 。 对 于 我 们 的 讨论 ， 过 程 的 du 链 和 ud 链 可 用 
ICAN 类 型 UdaDuchain 来 表示 ， 其 中 

UdDu=integer x integer 

UdDuChain: (symbol xUdDu) set of UdDu 

一 个 变量 的 网 (web) 是 该 变量 的 各 个 du 链 中 相交 的 那些 du 链 组 成 的 最 大 并 集 。 因 此 ， 图 
8-5 中 x 的 网 包括 了 两 个 定 值 和 两 个 使 用 ， 而 在 图 8-17 中 ， 存 在 着 关于 x 的 两 个 网 ， 一 个 由 B2 和 
B3 的 定 值 以 及 B4 和 B5 中 的 使 用 组 成 ， 另 一 个 包含 B5 中 x 的 定 值 和 B6 中 x 的 使 用 。 网 对 图 着 色 
全 局 寄存 器 分 配 ( 见 第 16 童 ) 特别 有 用 一 一 它们 是 寄存 器 分 配 的 候选 对 象 。 


(€x, <B2,1>>, (4B4, 15, (B5, 1532, 
€, G3,155, ((B5, 1515) 

{<<y, <B4,1>>, 8} 

{<<z, <B5,1>>,8>} 

{<<x, <B5,2>>,{¢(B6,1>}>} 

{<<z, <B6,1>>,6>} 


<B2,1> <B3 ,1> <B5 ,2> 


| | 


<B4,1> <BS ,1> <B6 ,1> 





b) 
图 8-17 a) 用 于 网 结构 的 例子 ，b) 其 中 的 网 


注意 ， 过 程 中 有 时 会 重复 使 用 某 些 变量 的 名 字 ， 比 如 说 变量 i 经 常 作为 循环 索引 变量 被 重 
复 使 用 ,但 是 这 些 使 用 之 间 相互 是 不 相交 的 ， 构 造 网 的 作用 正 是 为 了 分 开 这 种 变量 的 使 用 。 这 
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样 通过 缩小 变量 占用 寄存 器 的 范围 ,可 以 显著 地 改善 寄存 器 的 分 配 , 并且 改 善 其 他 优化 的 效果 。 
特别 是 那 种 作用 于 单个 变量 或 作用 于 程序 的 有 限 正 文 范围 的 优化 ， 如 作用 于 归纳 变量 的 强度 削 
弱 ， 可 以 从 中 得 到 好 处 。 


8.11 静态 单 赋值 形式 


静态 单 赋值 是 一 种 相对 较 新 的 中 间 代 码 表示 ， 它 能 有 效 地 将 程序 中 运算 的 值 与 它们 的 存储 
位 置 分 开 ， 从 而 使 得 若干 优化 能 具有 更 有 效 的 形式 。 

如 果 在 某 个 过 程 内 赋值 的 每 一 个 变量 作为 赋值 的 目标 只 出 现 一 次 ， 我 们 说 这 个 过 程 是 静态 
单 赋值 (SSA) 的 形式 。 在 用 SSA 形 式 表示 的 过 程 中 ，du 链 是 显 式 的 : 变量 的 使 用 可 能 用 到 一 个 
特定 定 值 产生 的 值 , 当 且 仅 当 在 该 过 程 的 SSA 形 式 中 此 变量 的 定 值 和 使 用 具有 完全 相同 的 名 字 。 
这 简化 了 若干 种 优化 转换 ， 包 括 常数 传播 、 值 编号 、 不 变 代码 外 提 和 和 删除、 强度 前 弱 和 部 分 元 
余 消 除 ， 从 而 提高 了 这 些 优化 的 效率 。 因 此 ， 值 得 将 一 个 过 程 的 给 定 表示 转换 成 SSA 形 式 ， 并 
对 SSA 形 式 进 行 操作 ， 然 后 在 适当 的 时 候 将 SSA 形 式 转换 回 原来 的 形式 。 

在 转换 成 SSA 形 式 的 处 理 过 程 中 ， 标 准 的 方法 是 给 每 一 个 赋值 的 变量 带 上 一 个 下 标 ， 并 
在 诸如 图 8-18 中 B5 的 和 人口 点 这 样 的 汇合 点 使 用 所 谓 的 4 
函数 ， 以 区 分 对 一 个 变量 的 多 种 赋值 。 每 一 个 g 国 数 具 
有 的 参数 个 数 同 汇合 到 那 一 点 的 该 变量 的 不 同 版 本 个 
数 一 样 多 ， 并 且 每 一 个 参数 与 该 点 的 一 个 特定 控制 流 
前 驱 相 对 应 。 因 此 图 8-17 例 子 的 标准 SSA 形 式 的 表示 如 
图 8-18 所 示 。 变量 x 已 经 被 分 成 4 个 变量 x,、x:、x3 和 xs4， 
而 z 已 被 分 成 z;:、z> 和 zs， 这 些 变量 的 每 一 个 都 只 赋值 
一 次 


B3 







x3 < ó(x,,x2 
z;*- x3- 3 
x4 €- 4 


转换 到 SSA 形 式 的 处 理 过 程 首先 找 出 要 插入 9 函数 
的 汇合 点 ， 然 后 插入 简单 的 8 函数 ( 即 形 式 为 9 
ETETE x) 的 函数 )， 其 中 ， 参 数 的 个 数 等 于 该 变量 
的 定 值 到 达 此 汇合 点 的 控制 流 前 驱 的 个 数 ， 然 后 ， 重 新 
命名 这 些 变量 的 定 值 和 使 用 (习惯 上 是 将 它们 带 上 下 标 ) 
来 建立 静态 单 赋值 性 质 。 一 旦 我 们 在 转换 成 SSA 形 式 之 
后 完成 了 需要 做 的 事情 ， 就 需要 删除 9 函数 ， 因 为 它们 x MENS 
只 是 一 个 概念 上 的 工具 ， 并 不 具有 计算 作用 一 即 ， 当 PTS DEUDA 
我 们 在 执行 一 个 过 程 来 到 一 个 具有 9 函数 的 汇合 点 时 ， 
我 们 无 法 确定 是 从 哪 一 个 分 支 到 达 这 一 点 的 ， 因 此 无 法 确定 使 用 的 是 哪 一 个 值 ” 。 

转换 一 个 过 程 到 最 小 SSA 形 式 ， 即 9 函数 个 数 最 少 的 SSA 形 式 ， 可 以 利用 所 谓 必 经 边界 来 
实现 。 对 于 流 图 的 一 个 结 点 zx，x 的 必 经 边界 (dominance frontier) 记 做 DF(x)， 它 是 流 图 中 所 
有 满足 后 面 这 个 条 件 的 结 点 y 的 集合 : x 是 y 的 直接 前 驱 结 点 的 必 经 结 点 ， 但 不 是 ?的 严格 必 有 经 结 
点 ， 即 ， 
DF(x) = (y ( 3z € Pred(y) 使 得 x dom z) 并 且 x !sdom y) 


对 所 有 x 直接 计算 DF(x) 会 使 计算 量 为 流 图 中 结 点 个 数 的 二 次 方 。 将 它 分 解 成 对 如 下 两 个 中 间 分 


B4 B5 


[zy = xe 7] ne 


O 一 种 称 为 门 控 单 赋值 形式 (gated single-assignment form) 的 SSA 扩 充 形式 ， 在 每 一 个 9 函数 中 包含 了 一 个 选 
择 符 ， 这 个 选择 符 根 据 到 达 汇 合 点 的 路 径 来 指出 选择 哪 一 个 位 置 。 
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DF ocat FDF p (x, z) 的 计算 ， 可 得 到 一 种 线性 的 算法 。 
DF, (4) = (y € Succ (x) | idom (y) *x) 
DF,, (x, z) 7 (y € DF (z) | idom (z) =x & idom (y) * x) 


并 且 DF(x) 的 计算 变 为 : 


DF(x) = DFlocai(*) U U DF up(x, 2) 
z € N (idom(z) =x) 


为 了 计算 给 定 流 图 的 必 经 边界 ， 我 们 将 上 面 的 方程 转换 成 如 图 8-19 所 示 的 代码 。 函 数值 
IDom (x) 是 x 是 其 直接 必 经 结 点 的 结 点 集合 ( 即 ，idom(x)=y 当 且 仅 当 x《 IDom(y))， 并 且 在 完 
成 时 ，DF(x) 包 含 * 的 必 经 边界 。 函 数 Post_Order(N, 1Dom) 返 回 一 个 结 点 序列 ， 此 序列 是 由 N 
和 /Dom 表 示 的 必 经 结 点 树 的 后 序 遍 历 。 


IDom, Succ, Pred: Node —> set of Node 


procedure Dom Front(N,E,r) returns Node 一 > set of Node 
N: in set of Node 
E: in set of (Node x Node) 
r: in Node 
begin 
y, z: Node 
P: sequence of Node 
i: integer 
DF: Node — set of Node 
Domin Fast(N,r,IDom) 
P := Post. Order(N,IDom) 
for i := 1 to |P| do 
DF(PLi) := Ø 
|| compute local component 
for each y € Succ(Pli) do 
if y £ IDom(Pli) then 
DF(Pli) v= {y} 
fi 
od 
{| add on up component 
for each z € IDom(Pli) do 
for each y € DF(z) do 
if y f IDom(Pli) then 
DF(Pii) u= (y) 
fi 
od 
od 
od 
return DF 
end || Dom, Front 


图 8-19 计算 流 图 必 经 边界 的 代码 
现在 我 们 为 流 图 结 点 集合 8 定义 8 的 必 经 边界 为 : 
DFG) = | J DF) 
xeS 
以 及 迭代 的 必 经 边界 (iterated dominance frontier) DF* QJ: 
DF*(S) = lim DF'(S) 
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K'BDF! (S) = DF(SJER.DF*(S) - DF(SU DF (S))。 如 果 S 是 给 变量 x 赋值 的 结 点 外 加 entry 结 
点 组 成 的 集合 ， 则 DF (5) 就 正好 是 与 -有关 的 需要 9 函数 的 结 点 集合 。 

为 了 计算 流 图 的 迭代 的 必 经 边界 ， 我 们 将 上 面 给 出 的 方程 改编 成 如 图 8-20 所 示 。 假 定 对 于 流 图 
中 所 有 的 结 点 zx， 我 们 已 预先 计算 好 了 DF0D， 则 DF_Plus(9) 是 结 点 集 $ 的 远 代 的 必 经 边界 。 计 算 DF 
(S) 的 这 种 实现 在 最 坏 的 情况 下 具有 的 时 间 上 界 是 该 过 程 大 小 的 二 次 方 ， 但 在 实际 中 通常 成 正比 。 


procedure DF Plus(S) returns set of Node 
$: in set of Node 
begin 
D, DFP: set of Node 
change := true: boolean 
DFP := DF, Set(S) 
repeat 
change :- false 
D := DF. Set(S u DFP) 
if D * DFP then 
DFP := D 
change := true 
fi 
until !change 
return DFP 
|! DF.Plus 



















end 





procedure DF Set(S) returns set of Node 
S: in set of Node 
begin 

x: Node 

D := Ø: set of Node 

for each x € 8 do 

D v= DF(x) © 

od 

return D 
|! DF_Set 





end 


图 8-20 . 计算 流 图 的 迭代 必 经 边界 的 代码 


作为 一 个 转换 到 最 小 SSA 形 式 的 例子 ， 考 虑 图 8-21 中 的 流 图 。 它 的 必 经 结 点 树 如 图 8-22 所 
示 。 利 用 前 面 给 出 的 必 经 边界 的 迭代 特征 ， 我 们 对 变量 k 计 算出 : 

DF'({entry, B1, B3}) = (B2) 

DF*({entry, B1,B3)) = DF({entry, B1, B2,B3}) = (B2) 
MLA: 

DF! ({entry, B1, B3, B6}) = {B2, exit} 

DF*({entry, B1, B3, B6}) = DF({entry, B1, B2, B3, B6, exit]) 
(B2, exit} 


对 于 j( 与 K 相 同 ) 有 : 

DF((entry,Bi,B3]) = (B2) 

DF*({entry, B1,B3}) = DF((entry,B1,B2,B3]) = (B2) 
所 以 ，B2 和 exit 是 需要 4 函数 的 结 点 。 具 体 地 ，B2 对 于 每 一 个 、j 和 k 需 要 一 个 函数 ， 
exit 需 要 关于 i 的 一 个 $8 函数。 为 这 些 变量 添加 下 标 并 插入 9 函数 后 的 结果 如 图 8-23 所 示 。 注意， 
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MA SlexitA By om BUT dE FOESS ERU. (RAR ERROR) ; 修剪 过 的 SSA 形 式 
(pruned SSA form) 删除 了 这 种 不 必要 的 4 函数， 但 以 稍微 增加 计算 量 为 代价 。 


entry 
| 
B1 
| 
B2 
B3 B4 
B5 B6 exit 





图 8-22 图 8-21 中 流 图 的 必 经 结 点 树 


Bi 










k3 €- (ki, k2) 

i; € $(i1,42) 

ja < Cj1,j2) 
i «n 


B2 





PERETE, 


is € @(i3,i4) 
exit 


图 8-23 转换 图 8-21 中 的 流 图 到 最 小 SSA 形 式 的 结果 


8.16 节 的 文献 给 出 了 关于 转换 到 最 小 SSA 形 式 并 从 它 转换 回 到 原形 式 的 一 些 有 效 算法 。 关 
于 转换 到 SSA 形 式 产生 的 影响 ， 也 有 一 些 实验 数据 [CytF91]: 在 221 个 Fortran 77 过 程 中 ， 经 过 
到 SSA 形 式 的 转换 后 ， 其 赋值 个 数 是 原来 程序 赋值 个 数 的 1.3~3.8 倍 。 偶 尔 出 现 程序 大 小 有 很 大 
的 增加 是 在 使 用 SSA 形 式 时 必须 注意 的 情况 ， 但 是 ， 在 已 经 知道 SSA 形 式 能 使 优化 具有 好 得 多 
的 效果 时 ， 即 使 有 这 种 情况 存在 ， 使 用 SSA 形 式 也 是 值得 的 。 
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8.12 数组 、 结 构 和 指针 的 处 理 


FAIL, 在 关于 数据 流 分 析 的 讨论 中 ， 我 们 涉及 的 只 是 简单 常数 和 其 值 是 简单 常数 的 变 
E, 一 直 没 有 涉及 到 比 它们 更 复杂 的 情况 。 因 为 变量 (在 某 些 语言 中 还 有 常数 ) 也 可 以 是 数组 、 
记录 、 指 针 等 ， 因 此 我 们 必须 考虑 如 何 将 它们 纳入 到 我 们 的 数据 流 分 析 框 架 中 来 ， 以 及 在 SSA 
形式 中 如 何 表示 它们 。 

许多 编译 器 的 选择 是 简单 地 忽略 对 数组 和 记录 的 赋值 ， 并 悲观 地 将 它们 看 成 是 通过 指针 的 
赋值 。 这 种 方法 假定 指针 可 以 指向 任意 变量 ， 因 此 ， 通 过 指针 的 赋值 可 能 陷 含 地 影响 所 有 的 变 
量 。 像 Pascal 这 样 的 语言 对 这 个 问题 可 以 提供 某 些 帮 助 ， 因 为 它们 限制 指针 所 指 的 对 象 只 能 是 
其 类 型 已 声明 是 指针 指向 的 对 象 。 用 一 种 能 产生 更 有 用 信息 的 方式 处 理 指针 需要 有 别名 分 析 ， 
我 们 将 在 第 10 章 专门 讨论 它 。 将 堆 看 成 是 类 似 于 数组 的 一 个 较 大 的 对 象 ， 并 且 假 定 任何 通过 指 
针 的 赋值 都 可 以 访问 和 改变 堆 中 的 所 有 对 象 ， 则 可 以 保守 地 模拟 指向 堆 存储 空间 的 指针 。 涉 及 
指针 和 记录 的 较为 激进 的 技术 在 后 面 8.14 节 讨论 。 

C 语 言 中 没有 限制 指针 只 能 指向 堆 存 储 空 间 一 一 它们 也 可 以 指向 栈 中 的 对 象 和 静态 分 配 的 
对 象 。 第 10 章 讨论 的 别名 分 析 方 法 对 于 C 程 序 的 激进 优化 尤其 重要 。 

有 些 语 言 允 许 数组 赋值 同时 对 数组 的 所 有 元 素 进 行 操作 。 通 过 将 这 种 数组 变量 和 常量 看 成 
是 普通 变量 和 常数 ， 这 种 数组 赋值 很 容易 处 理 。 但 是 ， 多 数 情 况 下 数组 赋值 是 对 单个 数组 元 素 
的 赋值 而 不 是 对 整个 数组 ， 例 如 ，A[3] ~ 5 或 A[i] 一 2。 对 一 个 已 知 数组 元 素 的 赋值 可 以 看 成 
是 普通 赋值 ， 但 这 仍然 不 能 解决 大 多 数 数组 操作 的 情况 。 处 理 带 变量 名 的 数组 元 素 赋值 的 一 种 
方法 是 ， 将 它们 转换 为 使 用 访问 和 更 新 的 赋值 


形式 ， 如 图 8-24 所 示 ， 使 得 它们 看 起 来 好 像 是 | 20]] <4 C epdate(a 4) 
对 整个 数组 进行 操作 。 尽 管 这 种 操作 能 使 我 们 本 v 

的 数据 流 分 析 算法 正确 工作 ， 但 通常 它们 产生 。。 图 8.24 涉及 数组 元 素 的 赋值 以 及 它们 到 
的 信息 过 于 粗糙 ， 以 至 于 对 优化 数组 操作 不 十 访问 /更 新 的 形式 转换 


分 有 用 。 通 常 的 选择 是 对 数组 操作 做 依赖 分 析 

(参见 9.1 节 )， 它 可 以 提供 有 关 数 组 的 更 精确 信息 ， 但 代价 是 增加 了 相当 多 的 额外 计算 。 最 近 
有 论文 介绍 了 一 种 相对 较 新 的 对 数组 元 素 进 行 数据 流 分 析 的 方法 ， 这 种 方法 称 为 最 近 写 树 
(last-write tree) 方法 (348.165). 

在 多 数 语言 中 ， 直 接 (而 不 是 通过 指针 ) 引 用 记录 元 素 的 赋值 只 可 以 使 用 记录 的 成 员 名 ， 
为 成 员 名 是 常数 ， 因 此 对 记录 的 赋值 可 以 看 成 是 对 整个 记录 的 访问 或 更 新 ， 如 同上 面 建议 的 对 
数组 的 处 理 那样 ; 或 者 看 成 是 对 单独 成 员 的 访问 或 更 新 。 如 果 程 序 中 频繁 使 用 记录 ， 后 一 种 方 
法 可 以 产生 更 为 有 效 的 优化 ， 我 们 将 在 第 12 章 讨论 这 种 方法 。 如 果 源 语言 允许 使 用 变量 来 选择 
记录 的 成 员 ， 则 这 种 记录 本 质 上 是 其 元 素 具 有 符号 名 的 固定 大 小 的 数组 ， 并 且 可 以 同 其 他 数组 
一 样 进行 处 理 。 


8.13 ”数据 流 分 析 器 的 自动 构造 


对 于 给 定 的 某 种 类 型 的 中 间 代 码 和 数据 流 问 题 ， 已 经 实现 了 若干 工具 ， 它 们 能 够 构造 出 解 
给 定数 据 流 问 题 的 数据 流 分 析 器 。 只 要 使 用 的 是 特定 的 中 间 代 码 ， 就 可 用 这 种 工具 来 构造 供 优 
化 使 用 的 数据 流 分 析 器 。 

第 一 个 著名 的 这 类 分 析 器 构造 器 是 由 Kildall [Kild73] 开 发 的 。 他 的 系统 构造 一 个 迭代 分 析 
器 ， 这 个 分 析 器 对 所 谓 的 “ 池 ”(pool) 进行 操作 。 这 里 的 “ 池 ”， 用 现在 的 说 法 就 是 在 分 析 期 
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间 某 个 时 刻 过 程 内 特定 点 所 具有 的 数据 流 信 息 。Kildall 给 出 了 一 种 表示 池 的 表格 形式 和 规则 ， 
这 些 规则 与 被 处 理 的 流 图 结 点 的 类 型 和 要 解 的 数据 流 问 题 相 对 应 ， 将 “输入 池 ” 转 换 到 对 应 的 
输出 地 “。 他 的 系统 允许 将 地 表示 成 位 向 量 、 链 表 或 值 编 号 (参见 12.4 节 )， 具 体 选择 取决 于 
”数据 流 问题 ， 并 执行 与 8.4 节 介绍 的 方法 类 似 的 一 种 工作 表 方 式 的 迭代 分 析 。 

较 新 也 较 成 熟 的 分 析 器 构造 器 是 Tjiang 和 Hennessy 的 Sharlit [TjiH92]。 除 了 执行 数据 流 分 
析 之 外 ， 这 个 分 析 器 构造 器 还 可 以 用 来 指定 优化 转换 。 在 Sharlit 中 ， 为 指定 一 个 分 析 器 和 优化 
器 所 需要 写 的 多 数 内 容 都 是 纯粹 的 说 明 ， 但 是 其 他 部 分 ， 如 优化 转换 ， 需 要 写 过 程 代码 ， 这 种 
代码 用 C++ 编写 。 这 种 分 析 器 构造 器 对 称 为 SUIF( 参 见 C.3.3 节 ) 的 四 元 式 中 间 代 码 进行 操作 。 
它 感 兴趣 的 四 元 式 类 型 是 取 、 存 、 具 有 两 个 操作 数 并 放置 结果 到 一 目标 操作 数 的 二 元 运算 ， 以 
及 指定 控制 流 的 其 他 操作 。 一 般 数据 流 分 析 器 由 两 部 分 组 成 ， 局 部 部 分 用 于 分 析 基 本 块 ， 并 通 


过 基本 块 传播 信息 ; 全 局 部 分 对 基本 块 组 成 的 流 图 进行 处 理 。 与 需要 数据 流 分 析 器 由 这 两 部 分 


组 成 的 做 法 不 同 ，Sharlit 允 许 分 析 器 的 说 明 按 编 译 器 书写 者 希望 的 工作 粒度 指定 不 同 的 操作 粒 
度 。 你 可 以 对 独立 的 中 间 代码 结 点 进行 操作 ， 或 将 这 些 中 间 代 码 组 合成 基本 块 来 操作 ， 也 可 以 
对 区 间或 其 他 结构 化 的 单位 进行 操作 一 一 就 看 哪 一 种 方式 更 适合 你 手头 的 问题 。 

Sharlit 执 行 数 据 流 分 析 所 用 的 底层 技术 是 路 径 简化 ， 它 基于 Tarjan 的 路 径 问 题 快速 算法 ， 
这 个 算法 计算 结 点 名 字 的 正则 表达 式 ， 称 为 路 径 表 达 式 (path expression). REAR A 
一 个 结 点 到 其 他 结 点 或 经 过 其 他 结 点 的 所 有 可 能 的 路 径 。 例 如 ， 对 于 图 7-32a 的 流 图 ， 从 
entry 经 过 基本 块 B5 的 路 径 表 达 式 是 


entry: (Bl : B2)*-B3- B5 


从 B3 经 过 exit 的 路 径 表 达 式 是 
B3 - (B4+ (B5: (B6- B7)*)) - exit . 
其 中 ,“ : ”运算 符 表示 连接 ,“+” 表 示 路 径 的 交汇 ,“*” 表 示 重 复 。 这 些 运算 符 在 数据 流 分 


析 器 中 分 别 表示 为 流 函 数 的 合成 、 交 和 不 动 点 计算 。 

为 了 给 Sharlit 指 定 一 个 优化 器 ， 必 须 指 定 下 面 的 内 容 : 

1. 它 所 操作 的 流 图 的 描述 (包括 选择 是 以 单个 四 元 式 还 是 以 基本 块 作为 分 析 的 单位 ) ; 

2. 要 使 用 的 数据 流 值 集 合 ， 每 一 个 值 与 问题 中 流 图 的 每 一 个 结 点 相连 ( 它 可 以 是 位 向 量 、 
对 变量 常数 值 的 赋值 ， 或 其 他 对 象 ) ; 

3. 描述 结 点 数据 流 值 效果 的 流 函 数 ; 

4. 若干 动作 例 程 ， 这 些 例 程 指明 利用 这 种 数据 流 分 析 结 果 要 执行 的 优化 转换 。 

在 给 定 了 要 解 的 数据 流 问 题 是 如 何 解释 流 图 、 值 和 函数 的 描述 ， 以 及 一 个 需要 进行 分 析 的 
过 程 后 ，Sharlit 计 算 流 图 各 个 分 量 的 路 径 表 达 式 集合 ， 然 后 使 用 流 函 数 和 路 径 表 达 式 来 计算 构 
成 解 的 数据 流 值 。 之 后 ， 它 使 用 结果 值 和 动作 例 程 来 遍历 流 图 并 执行 可 应 用 的 各 种 转换 。 


Tjiang 和 Hennessy 用 三 个 例子 说 明 如 何 用 Sharlit 来 计算 可 用 表达 式 (一 个 是 对 由 结 点 组 成 . 


的 流 图 进行 的 迭代 分 析 ， 一 个 是 计算 基本 块 的 流 函 数 的 局 部 分 析 ， 另 一 个 是 区 间 分 析 )。 他 们 
的 结论 是 ， 这 个 工具 极 大 地 简化 了 优化 器 的 说 明和 调试 ， 并 且 它 所 产生 的 结果 可 以 与 由 商业 编 
译 器 手工 生成 的 优化 器 相 竞争 。 


8.14 更 贪 禁 的 分 析 


迄今 为 止 我 们 还 只 考虑 了 相对 较 弱 的 数据 流 分 析 形 式 ， 对 于 它们 的 分 析 能 力 以 及 它们 与 诸 
如 程序 性 质 和 正确 性 验证 等 强 有 力 的 分 析 方法 之 间 的 密切 关系 则 几乎 没有 提 及 。 这 一 节 探 讨 我 
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们 所 使 用 的 格 的 复杂 性 ， 以 及 我 们 允许 自己 共有 的 对 程序 中 执行 的 操作 进行 推理 的 能 力 对 我 们 
能 够 确定 的 性 质 将 有 怎样 的 影响 。 

考虑 对 图 8-25 的 简单 例子 做 常数 传播 分 析 。 如 果 将 算术 运算 ， 例 如 这 里 出 现 的 1+1， 都 看 
成 是 未 经 解释 的 一 一 即 如 果 假 定 我 们 完全 没有 关于 其 运算 效果 的 信息 一 一 则 我 们 就 无 法 确定 j 
的 值 在 B4 的 入 口 点 是 否 是 常数 。 另 一 方面 ， 如 果 我 们 加 强 常数 传播 分 析 使 它 能 够 做 常数 加 运 
算 ， 则 我 们 就 很 容易 确定 在 B4 的 人口 处 j 的 值 为 2。 

在 图 8-26 的 例子 中 ， 假 定 我 们 能 够 将 减 1 然 后 与 0 进行 比较 的 两 个 运算 结合 起 来 考虑 ， 并 且 
能 够 区 别 这 个 测试 的 两 个 出 口 “Y” 和 “N”， 则 可 以 断定 ， 在 exit 基 本 块 的 入 口 处 n 的 值 < 0. 
如 果 扩 充 这 个 程序 如 图 8-27 所 示 ， 则 可 以 断定 在 exit 基 本 块 的 入口 n=0。 进 一 步 ， 如 果 我 们 
能 够 对 整数 函数 进行 推理 ， 则 我 们 也 能 确定 在 相同 点 ， 如 果 m 0, MES m ， 基 中 no 表示 n 
在 流 图 人 口 处 的 值 。 这 至 少 使 我 们 想到 能 够 使 用 数据 流 分 析 技 术 进行 程序 证 明 。 为 了 做 程序 证 
明 ， 我 们 需要 给 每 个 基本 块 的 每 一 个 出 口 处 相连 的 数据 流 信息 是 如 表 8-5 所 示 的 归纳 断言 。 尽 
管 这 需要 更 多 的 机 制 ， 并 且 它 的 计算 比 我 们 在 一 个 编译 器 电 实 际 可 能 用 到 的 任何 分 析 都 要 复杂 
得 多 ,但 它 至 少 说 明了 数据 流 分 析 包 括 的 各 种 可 能 应 用 中 的 一 种 应 用 。 


"ERI 





x 
图 8-25 常数 传播 分 析 的 简单 例子 图 8-26 简单 的 阶乘 计算 





图 8-27 完整 的 阶乘 计算 
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表 8-5 与 图 8-27 的 每 一 个 基本 块 出 口 相连 的 归纳 断言 ， 这 些 归纳 断言 
”对 于 确定 该 流 图 计算 的 是 整数 阶乘 函数 是 必要 的 


块 . 归纳 断言 
entry n = no 
B1/Y n=) <0 
B1/N n=n0>0 
B2 n=0andf=no! 
B3/Y n=n0=0andf=1 
B3/N nzno-0 
B4 n = no = 0 and f = no! 
B5 n = no > 0 and f = ng 
B6 n > 0 and f = no x (n9 — 1) x -- x (n 1) 
B7/Y n> Ü and f = no x (19 — 1) x --- x (n4 1) 
B7/N n — 0 and f = no x (n9 — 1) x --- x 1 2 ng! 
B8 n» 0 and f = no x (19 - 1) x --- xn 





另 一 个 计算 代价 非常 大 ， 但 比 程序 证 明 的 代价 要 小 一 点 的 数据 流 分 析 的 例子 是 包含 记录 和 
指针 的 数据 结构 的 类 型 判定 和 依赖 关系 分 析 。 这 个 问题 自 1968 年 以 来 就 一 直 有 不 少 人 在 进行 研 
究 ， 并 且 仍 然 没 有 完全 令 人 满意 的 答案 。 已 经 提出 了 各 种 方法 ， 但 是 所 有 的 方法 都 归于 这 三 个 
主要 类 : 基于 文法 的 方法 、 在 Jones 和 Muchnick[JonM81a] 论 文中 定义 的 k 受 限 图 方法 ， 以 及 9.6 
节 将 简单 介绍 的 Hendren 等 人 的 访问 路 径 方法 。 


8.15 小 结 


数据 流 分 析 提 供 关 于 一 个 过 程 (或 一 大 段 程序 ) 如 何 处 理 其 数据 的 全 局 信息 。 如 果 将 优化 
比 作 磨坊 的 话 ， 数 据 流 分 析 就 好 比 是 给 磨坊 提供 谷物 。 数 据 流 分 析 的 范围 可 以 从 分 析 过 程 的 抽 
象 执行 ， 即 确定 过 程 计算 的 是 某 个 特定 的 函数 ， 到 较 简 单 和 较 容 易 的 分 析 ， 如 到 达 - 定 值 分 析 。 
但 是 ， 同 控制 流 分 析 一 样 ， 数 据 流 分 析 存在 着 三 种 主要 的 方法 ， 每 一 种 方法 与 一 种 控制 流 方法 
相关 。 与 必 经 结 点 和 回 边 相 关 的 方法 叫做 迭代 数据 流 分 析 ， 其 他 两 种 方法 与 对 应 的 控制 流 方法 
有 相同 的 名 称 ， 即 区 间 分 析 和 结构 分 析 。 同 控制 流 分 析 类 似 ， 在 使 用 它们 时 也 需要 权衡 它们 各 
自 的 长 处 和 不 足 。 

不 论 采 用 什么 方法 ， 我 们 都 必须 保证 数据 流 分 析 给 出 的 是 正确 的 和 保守 的 信息 ， 即 给 出 的 
信息 不 能 误解 被 分 析 过 程 的 行为 。 它 不 能 告诉 我 们 执行 某 种 代码 转换 是 安全 的 ， 而 事实 上 却 是 
不 安全 的 。 我 们 必须 仔细 地 设计 数据 流 方程 ， 并 确信 我 们 计算 出 来 的 关于 它们 的 解 ， 如 果 不 是 
所 预期 信息 的 精确 表示 ， 也 至 少 是 它 的 保守 近似 表示 ， 以 此 来 保证 这 一 点 。 例 如 ， 对 于 到 达 - 
定 值 分 析 , 它 判 定 变量 的 哪些 定 值 可 以 到 达 一 个 特定 的 使 用 点 , 如果 存在 到 达 这 种 使 用 的 定 值 ， 
数据 流 分 析 一 定 不 能 告诉 我 们 没有 定 值 到 达 这 个 使 用 。 如 果 它 给 我 们 的 到 达 - 定 值 集合 大 于 或 
等 于 过 程 实际 产生 的 最 小 到 达 -- 定 值 集合 ， 则 这 种 分 析 是 保守 的 。 

但 是 ， 为 了 从 优化 中 获得 最 大 的 效益 ， 我 们 的 目的 是 使 得 数据 流 问题 既是 保守 的 ， 同 时 又 
尽 可 能 是 激进 的 。 因 此 ， 我 们 将 总 是 在 既 使 我 们 计算 的 信息 尽 可 能 激进 ， 但 又 是 保守 的 之 间 走 
钢丝 ， 以 便 从 这 些 分 析 和 我 们 执行 的 代码 改善 转换 中 得 到 最 大 的 效益 ， 而 又 不 至 于 把 正确 的 代 
码 转换 成 不 正确 的 代码 。 
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8.16 进一步 阅读 


使 用 KILLO 函 数 而 不 是 用 PRSVO 的 著作 的 一 个 例子 是 [AhoS86]。 

[JonM81b] 介 绍 了 Jones 和 Muchnick 为 了 描述 类 LISP 数 据 结构 的 “形状 ”所 使 用 的 格 。 

对 于 涉及 单调 函数 的 数据 流 分 析 ， 可 能 不 存在 计算 关于 它 的 满足 所 有 路 径 解 的 算法 的 证 明 
可 以 在 [Hech77] 和 [了 amU75] 中 找到 。Kildall 的 结果 ( 即 ， 对 于 其 中 所 有 流 国 数 都 是 可 分 配 的 数 
据 流 问 题 ， 一 般 迭 代 算 法 计算 的 是 MFP 解 ， 在 这 种 情况 下 ，MEP 与 MOP 解 相同 ) 是 从 [Kild73] 
中 找到 的 。Kam 和 Ullman 对 单调 但 非 可 分 配 国 数 的 部 分 推广 是 从 [KamU75] 中 找到 的 。 

将 数据 流 信息 与 流 图 中 的 边 相 连 的 论文 包括 [JonM76]、[JonM81a] 和 [Rose81]。 其 中 第 二 篇 
论文 也 描述 了 有 关系 的 和 属性 无 关 两 者 之 间 的 不 同 。 

Morel 和 Renvoise 的 关于 部 分 元 余 删 除 的 原始 公式 是 在 [MorR79] 中 找到 的 ，Knoop、 
Rithing 和 Steffen 的 较 新 的 部 分 元 余 删 除 公 式 在 [KnoR92] 中 给 出 。Khedker 和 
Dhamdhere[KheD99] 讨 论 了 双向 数据 流 分 析 的 计算 复杂 性 。 

8.3 节 介绍 的 解数 据 流 问题 的 方法 来 自 下 面 的 论文 : 


方 法 引 x 
Allen 的 强 连通 区 域 方法 [Alle69] 
Kildall 的 迭代 算法 [Kild73] 
Ullman 的 71-72 分 析 [U1Im73] 
Kennedy 的 结 点 列表 算法 [Kenn75] 
Farrow、Kennedy 和 Zucconi 的 图 形 文法 方法 [FarK75] 
消去 法 ， 例 如 区 间 分 析 [A11C76] 
Rosen 的 高 级 (语法 制导 的 ) 方法 [Rose77] 
结构 分 析 [Shar80] 
位 置式 分 析 [DhaR92] 





如 果 4 是 流 图 中 任意 无 环 路 路 径 上 回 边 的 最 大 条 数 ， 如 果 我 们 使 用 逆 后 序 遍 历次 序 ， 则 进 
代 算 法 只 需要 通过 repeat 循 环 4+2 遍 是 Hecht 和 Uliman 在 [HecU7S] 中 证 明 的 。[Hech77] 中 讨论 
了 管理 工作 表 的 各 种 可 选 方法 ， 包 括 循环 法 和 不 同 结 点 列表 方法 。 

位 置式 分 析 的 最 早 文章 是 [Kou77]。[DhaR92] 说 明了 如 何 将 位 置式 分 析 应 用 于 部 分 元 余 分 析 。 

[CytF89] 和 fCytF91] 介 绍 了 静态 单 赋值 形式 ， 这 种 形式 起 源 于 Shapiro 和 Saint[ShaS69] 较 早 
开发 的 一 种 形式 。 线 性 时 间 的 必 经 边界 算法 出 现在 [CytF91] 中 ， 同 时 给 出 的 还 有 转换 至 SSA 形 
式 和 从 SSA 形 式 转换 回 原形 式 的 有 效 方法 。 

利用 最 近 写 树 方法 进行 数组 元 素 的 数据 流 分 析 是 [Feau91] 介 绍 的 。 

[TjiH92] 和 [Tjia93] 中 介绍 了 Tjiang 和 Hennessy 的 Sharlit， 它 对 SUIF 中 间 表 示 进 行 操 作 。 
[TjiW91] 描 述 了 SUIF 中 间 表 示 ( 关 于 如 何 下 载 SU 下 ， 参 见 附 录 C)。[TjiH92] 给 出 了 使 用 Sharlit 的 
三 个 例子 。 

关于 如 何 应 用 数据 流 分 析 到 递归 数据 结构 的 研究 论文 包括 [Reyn68]. [Tene74a]、 [Tene74b]. 
[JonM81a]、[Laru89]、[Hend90]、[ChaW90]、[HumH94]、 [Deut94] 等 。{[HumH94] 中 使 用 的 方 
法 将 在 9.6 节 讨论 。 


8.17 练习 


8.1 在 使 用 位 向 量 或 集合 运算 、 并 采用 和 迭代 法 计算 双向 数据 流 信息 中 ， 同 时 使 用 
(ainQffiout 0 函数 ， 与 (b) 只 使 用 两 者 之 一 的 复杂 性 如 何 ? 
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给 出 一 个 不 是 强 可 分 配 格 的 例子 。 

给 出 一 个 数据 流 问 题 的 具体 例子 ， 并 给 出 它 的 MOP 和 MFP 解 各 不 相同 的 实例 。 
评估 将 数据 流 信息 与 流 图 的 边 相 连 ， 和 与 结 点 人 口 和 出 口 相连 的 空间 和 时 间 的 复杂 性 。 
如 [JonM81a] 所 介绍 的 那样 ， 将 图 8-4 的 数据 流 分 析 形 式 化 地 表示 为 关系 问题 ， 其 结 
果 和 使 信息 与 边 相连 的 方法 一 样 好 吗 ? 计算 的 复杂 性 如 何 ? 

研究 用 于 数据 流 分 析 的 Kennedy 的 结 点 列表 算法 [Kenn75], 或 Farrow、Kennedy 和 和 
Zucconi 的 图 形 文 法 方法 [FarK75]。 与 本 章 讨论 的 这 些 方法 相 比 ， 它 们 的 优点 和 缺 
点 是 什么 ? 

还 有 哪些 可 选 方法 能 用 来 管理 图 8-6 中 的 工作 表 ? 在 实现 的 难 易 程度 和 计算 的 效率 
方面 ， 它 们 与 向 前 问题 的 逆 后 序 方法 有 何 比较 ? 

画 出 从 BV’ 到 它 自身 的 单调 函数 格 。 

Lr 对 任意 L 是 可 分 配 的 吗 ? 如 果 不 是 ， 给 出 一 个 例子 ; 如 果 是 ， 给 出 证 明 。 

如 [Zade84] 中 所 讨论 的 那样 ， 研 究 数 据 流 信息 随 流 图 的 改变 而 更 新 的 情况 。 有 哪 
些 明 显 的 原因 表明 值得 在 编译 器 中 这 样 做 ， 而 不 是 当 需 要 时 重新 计算 数据 流 信 
息 ? 

给 出 对 一 个 具有 非 正常 区 域 的 流 图 进行 结构 数据 流 分 析 的 例子 ， 并 说 明 三 种 处 理 
非 正常 区 域 方 法 中 的 每 一 种 ， 这 三 种 方法 即 (a) AAD, (>) BRAC) 解 底层 格 
是 单调 函数 格 的 数据 流 问题 。 

(a) 用 结构 方法 公式 化 向 后 数据 流 分 析 。(b) 说 明 处 理 非 正常 区 域 的 函数 格 上 的 达 
代 是 向 前 分 析 。 

(a) 构造 一 个 其 循环 体 是 非 正常 区 域 且 其 中 包含 一 个 i1f-then-else 结 构 的 简单 
循环 流 图 的 例子 。(b) 为 你 的 这 个 例子 写 出 结构 数据 流 方程 。(c) 写 出 关于 执行 这 
个 循环 和 if-then-else 的 向 前 数据 流 分 析 的 ICAN 代 码 。(d) 如 8.7.3 节 所 讨论 的 
那样 ， 构 造 表示 该 非 正常 区 域 中 数据 流 的 ICAN 数 据 结构 。(e) 用 ICAN 写 出 一 个 使 
用 (d) 中 数据 结构 计算 数据 流 信 息 的 解释 程序 。(f) 使 用 这 个 循环 和 if-then- 
else 的 代码 以 及 这 个 非 正常 区 域 的 解释 程序 计算 此 流 图 的 到 达 一 定 值 信息 。 

给 出 结构 分 析 方 程 的 另 一 种 可 选 表示 ( 即 ， 与 8.7.3 节 所 给 方程 不 同 的 表示 )。 你 的 选 


- 择 的 优 缺 点 是 什么 ? 


用 公式 表示 并 求解 BV" 问 题 ， 例 如 可 用 表达 式 、 位 置式 分 析 。 

构造 图 16-7 中 过 程 的 du 链 、ud 链 及 网 。 

计算 图 16-7 中 过 程 的 DFO 和 DF'*0 

研究 用 于 数组 数据 流 分 析 的 最 近 写 树 [Feau91]。 它 们 提供 和 人 允许 什么 信息 ?代价 如 
何 ? 

Sharlit 产 生 数据 流 问题 的 MOP 解 吗 ? 
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第 9 章 依赖 关系 分 析 和 依赖 图 


依赖 关系 分 析 是 指令 调度 ( 见 17.1 节 ) 和 数据 高 速 缓 存 优化 ( 见 20.4 节 ) 的 重要 工具 。 

作为 指令 调度 的 工具 ， 它 确定 一 个 基本 块 ( 或 一 大 段 代码 ) 中 指令 间 的 顺序 关系 ， 这 种 关 
系 是 代码 正确 执行 所 必须 遵循 的 ， 这 包括 确定 两 个 给 定 的 寄存 器 或 存储 引用 所 访问 的 存储 地 址 
是 否 重合， 确定 一 对 指令 是 否 有 资源 冲突 。 类 似 地 ， 依 赖 关 系 分 析 和 在 它 支持 下 才能 实现 的 循 
环 变换 是 数据 高 速 缓存 优化 的 主要 工具 ， 也 是 自动 向 量化 和 并 行 化 的 基础 。 

本 章 还 给 出 了 一 种 称 为 程序 依赖 图 ( 见 9.5 节 ) 的 新 的 中 间 形 式 ， 它 是 进行 若干 种 类 型 优 
化 的 基础 。 

本 章 最 后 几 节 中 有 一 节 专 门 讨论 了 动态 分 配 的 对 象 之 间 的 依赖 关系 。 


9.1 依赖 关系 


本 节 介 绍 依赖 关系 分 析 的 基本 概念 。 后 面 各 节 将 说 明 它 们 如 何 用 于 指令 调度 和 数据 高 速 组 
存 相关 的 分 析 。 在 每 种 情况 下 ， 我 们 构造 一 个 依赖 图 ， 它 表示 一 个 代码 段 中 的 依赖 关系 一 一 在 
作用 于 一 个 基本 块 的 指令 调度 中 ， 这 种 依赖 图 中 没有 环 路 ， 所 以 称 为 依赖 DAG。 我 们 将 看 到 ， 
依赖 关系 分 析 可 以 适用 于 任意 层次 的 代码 ， 包 括 源 代码 、 中 间 代 码 或 目标 代码 。 

在 给 定 的 执行 顺序 中 ， 如 果 语 句 S1 在 S2 之 前 执行 ， $1 ae bre 
我 们 记 作 S1 < S2。 程 序 中 两 个 语句 之 间 的 依赖 关系 S2 if a > 10 goto L1 
(dependence) 是 一 种 约束 它们 执行 顺序 的 关系 。 控 制 依 |S dicbro 
# (control dependence). 是 程序 控制 流 导致 的 一 种 约束 ， $5 Li: de/2 
例如 图 9-1 中 S2 与 S3 和 3S4 的 关系 ，S3 和 3S4 仅 当 S2 中 的 条 ao MR 代码 中 的 控制 和 数据 
件 不 满足 时 才 执 行 。 如 果 在 语句 S1 和 S2 之 间 存 在 控制 依 依赖 关系 的 例子 
赖 关 系 ， 我 们 记 作 S1 8 S2。 所 以 在 图 9- ! 中 有 $2 0° S3 和 
S26 S4. 

数据 依赖 (data dependence) 是 语句 间 数 据 流 造成 的 一 种 约束 ， 例如 在 图 9-1 的 语句 S3 和 S4 
之 间 ，S3 给 da 赋值 ，S4 使 用 da 的 值 ， 另 外 ，S3 使 用 e 的 值 而 S4 给 e 赋 值 。 对 于 这 两 种 情况 ， 苏 倒 
这 两 个 语句 的 执行 顺序 就 会 导致 程序 产生 错误 的 结果 。 有 4 种 类 型 的 数据 依赖 关系 ， 如 下 所 示 : 

1. 如 果 S1<S2， 且 S1 置 一 个 值 而 S2 使 用 该 值 ， 则 称 存在 一 个 流 依 赖 (flow dependence) 
或 真 依赖 (true dependence)， 这 是 一 个 二 元 关系 ， 记 作 S1 8 S2。 例 如 ， 图 9-1 中 S3 和 S4 之 间 的 
流 依赖 关系 记 作 S3 8 S4。 

2. 如 果 S1<S2， 且 S1 使 用 某 个 变量 的 值 而 S2 给 该 变量 赋值 ， 则 称 这 两 个 语句 间 存 在 一 个 
反 依 玉 (antidependence ) ， 记 作 S1 & S2. 图 9-1 中 语句 $3 和 S4 之 间 就 有 一 个 反 依赖 关系 S3 9 S4, 
同时 它们 之 间 也 有 一 个 流 依赖 关系 ， 因 为 S3 使 用 e 而 S4 给 e 赋 值 。 

3. 如果 S1< S2， 且 两 个 语句 都 给 某 个 变量 赋值 ， 则 称 这 两 个 语句 问 存在 一 个 输出 依赖 
(output dependence ) ， 记 作 S1 & S2. 在 图 9-1 中 ， 有 S3 8S5. 

4. 最 后 ， 如 果 S1 < S2， 且 两 个 语句 都 使 用 某 个 变量 的 值 ， 则 称 这 两 个 语句 间 存 在 一 个 输入 

依赖 (input dependence)， 记 作 S1 ô S2。 例 如 ， 在 图 9-1 中 ， 有 S53 S5, 因为 这 两 个 语句 都 使 
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用 e 的 值 。 注意 输入 依赖 关系 不 约束 两 个 语句 的 执行 顺序 ， 但 建立 这 个 概念 有 利于 我 们 在 20.3 
节 中 讨论 数组 元 素 的 标量 置换 。 

一 组 依赖 关系 可 以 用 一 个 称 为 依赖 图 (dependence graph) 的 有 向 图 来 表示 。 在 这 种 图 中 ， 
结 点 表示 语句 ， 边 表示 依赖 关系 。 每 条 边 上 的 标识 指出 了 它 代 表 的 依赖 关系 ， 习 惯 上 流 依赖 边 
也 可 以 不 标识 。 图 9-2 给 出 了 图 9-1 中 代码 的 依赖 图 。 控 制 依赖 通常 不 在 依赖 图 中 表示 ， 除 非 这 
种 依赖 关系 是 两 个 结 点 之 间 惟 一 的 依赖 关系 〈 在 我 们 的 例子 中 ， 语 句 S2 和 S4 有 一 个 控制 依赖 ， 
但 图 中 省 略 了 )。 


o 
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图 9-2 图 9-1 中 代码 的 依赖 图 
9.2 基本 块 依赖 DAG 


在 第 17 章 中 考虑 的 基本 块 调度 方法 称 为 表 调度 ， 它 要 求 我 们 首先 要 构造 一 个 依赖 图 ， 这 个 依 
赖 图 反映 了 对 基本 块 中 的 指令 进行 调度 的 有 关 约 束 ， 也 即 调度 的 自由 度 。 因 为 一 个 基本 块 中 没有 
循环 ， 它 的 依赖 图 总 是 一 个 无 环 有 向 图 (DAG)， 称 为 基本 块 的 依赖 DAG (dependence DAG). 

依赖 DAG 中 的 结 点 表示 机 器 指令 或 低级 中 间 代 码 指令 ， 边 表示 指令 之 间 的 依赖 关系 。 从 万 
到 的 一 条 边 表示 存在 下 述 依 赖 关系 之 一 : 

1. 厂 写 一 个 寄存 器 或 存储 单元 ， 而 使 用 它 ， BPZ, 8° L; 

2. 了 使 用 一 个 寄存 器 或 存储 单元 ， 而 1 改变 它 ， 即 7.6 D; 

3. 石和 五 写 人 同一 个 寄存 器 或 存储 单元 ， EIA o h; 

4. 不 能 确定 1 能 否 移 到 1, 之 后 执行 ; 或 

5. 也 和 了 ,有 一 个 结构 相关 ， 下 面 将 予以 解释 。 

第 4 种 依赖 关系 的 一 个 例子 是 ， 当 一 条 取 指 令 之 后 是 一 条 使 用 不 同 寄存 器 来 访问 存储 器 的 
存储 指令 时 ， 我 们 就 不 能 确定 这 两 条 指令 的 访 存 地 址 是 否 重 倒 。 更 具体 地 说 ， 假 定 一 条 指令 从 
[r11] (4) 读 ,而 下 一 条 指令 写 人 [r2+12] (4)。 在 不 知道 r2+12 和 r11 指 向 不 同位 置 的 情 
况 下 ， 我 们 必须 假定 在 这 两 条 指令 之 间 存 在 依赖 关系 。 

9.4 节 将 介绍 的 一 些 技 术 可 用 于 消除 循环 中 许多 存储 引用 的 歧义 性 ， 它 形成 的 信息 可 作为 
代码 的 注解 传递 给 指令 调度 器 ， 以 增加 调度 的 自由 度 。 

在 依赖 DAG 中 ， 如 果 I 必 须 在 I 执行 了 若干 拍 之 后 才能 执行 ， 结 点 是 结 点 1 的 前 驱 。 在 
DAG 中 一 条 边 表示 的 依赖 关系 的 类 型 并 不 重要 ， 所 以 我 们 省 略 了 类 型 标记 。 但 是 ， 我 们 用 一 
BOR AULA, PERE SZ ERA FAH (latency), Ai ER Ra Sty 
BEHO. EA EMAN ARATA ARTZA ERER (delay) 减 去 在 其 他 任何 指令 
可 以 开始 执行 之 前 所 需 的 执行 时 间 (通常 是 一 个 时 钟 周期 ， 即 一 拍 ， 但 在 超标 量 系统 中 常常 
为 0)。 这 样 ， 如 果 世 可 以 在 紧 随 I 开始 之 后 的 时 钟 周期 内 开始 执行 ， 则 等 待 时 间 是 0。 而 如 果 
的 开始 到 L 的 开始 之 间 必 须 间隔 2 拍 ， 则 等 待 时 间 是 1。 例 如 ， 对 于 图 9-3a 中 的 LIR 代 码 ， 假 定 取 
指令 的 等 待 时间 是 1 拍 ， 并 需要 2 拍 来 完成 执行 ， 则 依赖 DAG 如 图 9-3b 所 示 。 
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r2 < [ril(4) 
r3 <- [r1+4] (4) 1 1 1 
r4 €- r2 + r3 
rs © r2- 1 0 3 
b . 


a) 
图 9-3 a) 一 个 L 耻 代码 的 基本 块 ，b) 该 基本 块 的 依赖 DAG 


在 计算 依赖 关系 时 ， 将 条 件 代 码 和 其 他 隐 含 资源 当成 寄存 器 同样 看 待 。 
更 复杂 一 点 的 第 二 个 例子 是 图 9-4a 中 的 LIR 代 码 和 图 b) 给 出 的 它 的 依赖 DAG， 同 样 假定 取 
数 指令 的 等 待 时 间 为 1 拍 。 指 令 1 和 指令 2 是 相互 无 关 的 ， 因 为 它们 引用 不 同 的 存储 器 地 址 和 不 
同 的 目的 寄存 器 。 指 令 3 必 须 在 指令 1 和 指令 2 之 后 执行 ， 因 为 它 使 用 这 两 条 指令 取 的 值 。 指 令 4 
与 指令 1 和 指令 2 无 关 ， 因 为 它们 都 取 值 到 不 同 的 寄存 器 。 指 令 7 必 须 在 指令 1、 指 令 2 和 指令 4 之 
后 执行 ， 因 为 它 将 指令 1 的 结果 存 人 到 由 指令 2 读 取 的 地 址 中 ， 而 且 当 z*12 中 的 值 是 z15 + 4 时 ， 
它 就 与 指令 4 冲突 。 





r3 < [ri5] (4) 
r4 < [ri5*4](4) 
r2 «- r3 - r4 
r5 < [ri12](4) 
ri2 «€ r12 +4 
r6 «- r3 * r5 
[r15+4] (4) € r3 
rb < r6 + 2 


1 
2 
3 
4 
5 
6 
7 
8 





a) b) 
图 9-4 a) 一 个 更 复杂 的 LIR 例 子 ，b) 该 例子 的 依赖 DAG 
注意 ， 图 9-4b 中 从 4 到 8 的 边 是 多 余 的 ， 因 为 图 中 有 一 条 从 4 到 6 的 边 , 还 有 一 条 从 6 到 8 的 边 。 
另 一 方面 ， 如 果 从 4 到 8 的 边 标记 的 等 待 时 间 为 4， 则 它 就 不 是 多 余 的 了 ， 因 为 这 样 
1, 2, 4, 5, 6, 7, 8,3 


和 
1, 2, 4, 5, 6, 8, 7, 3 
两 种 情况 都 是 可 行 的 调度 ， 前 一 个 要 求 8 拍 ， 但 后 一 个 要 求 9 拍 。 
为 了 构造 一 个 基本 块 的 DAG， 我 们 需要 两 个 函数 : 
Latency: LIRInst x integer x LIRInst x integer ~ integer 
fü 


Conflict: LIRInst x LIRInst > boolean 


这 两 个 函数 的 定义 是 : 
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Latency(lh, n, I» nj 二 在 [执行 第 n, 个 时 钟 周 期 时 开始 执行 1, 的 第 ns 个 时 钟 
周期 需要 等 待 的 时 钟 周期 数 

和 
true ”如 果 I 必 须 在 1 之 前 执行 才能 保证 程序 的 正确 性 
false 其 他 情况 

注意 ， 对 于 任意 两 条 由 一 个 “.sequence” 伪 操作 分 隔 开 的 LIR 指 令 T1 和 1,， 
Conflict, LAtrue. 

为 了 计算 Latency () ， 我 们 需要 用 到 资源 向 量 。 一 条 指令 的 资源 向 量 (resource vector) 
是 该 指令 在 其 执行 时 的 连续 时 钟 周期 内 所 需 的 各 种 计算 资源 集合 组 成 的 数组 。 例 如 ，MIPS 
R4000 浮 点 部 件 有 7 个 资源 ， 分 别称 为 A (尾数 加 )、E (异常 检测 )、M (乘法 器 第 一 级 )、 
N (乘法 器 第 二 级 )、R (BAM). S (操作 数 移 位 ) MU (操作 数 准备 ) 。 单 精度 浮 点 加 
(add.s) MÆ (mul.s) 指令 的 资源 向 量 如 下 : 


Conflict(h, L)= | 





所 以 在 一 条 mul .s 指 令 的 第 4 拍 开始 执行 一 条 add .s 指 令 将 导致 在 mul . s 的 第 6 和 第 7 拍 出 现 冲 
突 一 一 在 第 6 拍 ， 两 条 指令 都 需要 资源 A， 在 第 7 拍 ， 两 条 指令 都 需要 资源 RR。 在 同一 时 间 内 两 
条 或 多 条 指令 因 同 一 个 资源 引起 的 竞争 称 为 结构 相关 (structural hazard). 

为 计算 Latency(, L), 我 们 要 匹配 指令 I 和 了 ,的 资源 向量 ( 见 图 9-5)。 具体 地 ， 我 们 重复 
地 检查 两 个 资源 向 量 的 元 素 是 否 有 非 空 的 交集 ， 每 当 发 现 一 个 资源 神 突 时 ， 就 沿 着 1 的 资源 向 
量 逐 个 元 素 地 步 进 。 过 程 Inst_RV () 的 第 一 个 参数 是 一 条 指令 ， 第 二 个 参数 是 资源 向 量 的 长 
度 ， 它 返回 这 条 指令 对 应 指令 类 型 的 资源 向 量 。 函数 Resset(inst 让 返回 指令 inst 在 时 钟 周期 i 

zi 使 用 的 资源 集合 。 常 数 Maxcycles 是 任意 指令 所 需 的 最 大 时 钟 周期 数 。 


ResVec = array [1::MaxCycles] of set of Resource 
MaxCycles, IssueLatency: integer 


procedure Latency(insti,cyc1,inst2,cyc2) returns integer 
. insti, inst2: in LIRInst 
cyci, cyc2: in integer 
begin 
I1RV, I2RV: ResVec 
n := MaxCycles, i := 0, j, k: integer - 
cycle: boolean 
I1RV := Inst RV(insti,cyci) 
I2RV := Inst RV(inst2,cyc2) 
|| determine cycle of insti at which inst2 can begin 
|| executing without encountering stalls 
repeat 
cycle := false 
j:= 1 
while j <n do 
if I1RV[j] n I2RV[j] + Ø then 
for k := 1 to n - 1 do 
I1BV[k] := I1RV[k*1] 





od 
图 9-5 计算 Latency O 的 函数 


BRS, 
计算 。 
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n-= 1 
i += 1 
cycle := true 
goto L1 


fi 
ji 
od 
until !cycle 
return i 
end || Latency 


procedure Inst RV(inst,cyc) returns ResVec 
inst: in LIRInst l 
cyc: in integer 
begin 
IRV: ResVec 
i: integer 
|! construct resource vector for latency computation 
|| from resource set 
for i := 1 to MaxCycles do 
if cycti-1 « MaxCycles then 
IRV[i] := ResSet(inst,cycti-1) 
else 
IRV[i] : 
fi 
od 
return IRV 
end || Inst. RV 


图 9-5 (fX) 


对 于 例子 Latency (mul.s,4,add.s,1), 我们 有 MaxCycles=7， 以 及 如 下 的 资源 向 量 : 


TiRV[1] = (M) 
I1RV[2] = {N} 
ItRV[3] = {N,A} 
I1RV[4] = {R} 
I1RV[5] =Ø 
IiRV[6] = 6 
I1RV[7] =Ø 


T2RV[1] = {VU} 
I2RV[2] = {S,A} 
I2RV[3] = {A,R} 
I2RV[A4] = {R,S} 
12RV[5] = d 
I2RV[6] = Ø 
I2RV[7] =ø 


读者 不 准 算出 上 面 调用 Latency O 的 返回 值 是 2， 所 以 在 mul . s 的 第 4 拍 开始 执行 aad . s 指 令 


将 导致 2 拍 的 停顿 ， 但 在 mul . s 的 第 6 拍 开始 执行 adq. s 指 令 就 没有 迟延 。 


虽然 这 个 计算 等 待 时 间 的 算法 是 一 目 了 然 的 ， 但 还 有 更 快 的 算法 。Proebsting 和 Fraser 在 
[ProF94] 中 介绍 了 一 种 方法 ， 它 使 用 一 个 确定 的 有 限 自动 机 ， 该 自动 机 的 状态 类 似 于 资源 向 


自动 机 的 状态 转换 是 指令 ， 它 通过 简单 的 查 表 来 完成 类 似 于 我 们 的 算法 中 j 循 环 的 


令 Inst [1..m] 是 构成 一 个 基本 块 的 指令 序列 (包括 “.sequence” 伪 指令 )。 如 果 这 个 基 


本 块 以 一 条 分 支 指令 结束 ， 且 在 体系 结构 中 分 支 指令 具有 延迟 槽 ， 我 们 则 不 将 该 分 支 指令 包含 在 


指令 序列 内 。 数 据 结构 DAG 的 形式 如 图 9-6 所 示 ， 其 中 Nodes = (1, 7, n), Roots SNodes。 


O 停顿 (stall) 指 的 是 一 条 流水 线 不 活动 〈 或 停 转 )， 此 时 因为 需要 的 硬件 资源 正在 使 用 ， 或 某 种 条 件 没有 满 
是 ， 它 不 能 继续 处 理 提交 给 它 的 下 一 条 指令 。 例 如 ， 在 某 些 体系 结构 的 实现 中 ， 如 果 一 条 取 指令 所 取 的 值 被 
下 一 条 指令 使 用 ， 则 流水 线 将 停顿 一 拍 时 钟 周期 。 
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DAG = record { 
Nodes, Roots: set of integer, 
Edges: set of (integer x integer), 
Label: (integer x integer) —> integer} 


procedure Build DAG(m,Inst) returns DAG 
m: in integer 
Inst: in array [1::m] of LIRInst 
begin 
D := (Nodes: ,Edges:,Label:,Roots:95: DAG 
Conf: set of integer 
j, k: integer 
|! determine nodes, edges, labels, and 
|| roots of a basic-block scheduling DAG 
for j := 1 to m do 
D.Nodes u= {j} 
Conf := Ø 
for k := 1 to j - 1 do 
if Conflict(Inst(kl,Inst[j]) then 
Conf v= {k} 
fi 
od 
if Conf = Ø then 
D.Roots u= {j} 
else 
for each k € Conf do 
D.Edges v= (kj) 
D.Label(k,j) := Latency(Inst[k],1,Inst[j],IssueLatency*i) 
od 
fi 
od 
return D 
end {|| Build. DAG 


图 9-6 构造 用 于 基本 块 调度 的 依赖 DAG 的 算法 


构造 调度 DAG 的 算法 称 为 Build_DAG () ， 在 图 9-6 中 给 出 。 该 算法 按 顺 序 序 依 次 处 理 所 有 
指令 。 对 于 每 条 指令 ， 算 法 首先 确定 它 是 否 与 已 经 在 DAG 中 的 指令 发 生 神 突 。 如 果 是 ， 将 与 
它 相 冲突 的 那些 指令 放置 在 Conf 集 合 中 。 然 后 ， 如 果 Conf 为 空 ， 将 当前 指令 加 入 Roots， 即 
DAG 的 根 集合 。 否 则 ， 对 于 Conf 中 的 每 一 条 指令 ， 在 DAG 中 增加 一 条 从 该 指令 到 当前 处 理 的 
指令 的 边 ， 并 以 相应 的 等 待 时 间 标 记 这 条 边 。 构 造 DAG 需 要 O(n”) 个 操作 ， 因 为 为 了 查找 依赖 
关系 ， 要 比较 基本 块 中 的 每 一 对 指令 。 

作为 构造 DAG 的 例子 ， 考 虚 图 9-4a 给 出 的 8 条 LR 指令 序 列 。 以 n= 8 并 且 用 序列 中 的 8 条 指令 设 
置 Inst [1] 到 Inst[8] 来 调用 Build_DAG () 。 对 于 第 一 条 指令 ， 在 它 前 面 不 存在 与 它 发 生 冲 突 的 
指令 ， 所 以 它 是 一 个 根 结 点 。 第 2 条 指令 与 第 一 条 没有 冲突 ， 所 以 也 是 一 个 根 结 点 。 第 3 条 指令 与 
前 两 条 指令 都 有 冲突 ， 因 为 它 使 用 前 两 条 指令 取 的 值 ， 所 以 在 DAG 中 加 入 分 别 从 前 两 条 指令 到 第 3 
条 指令 的 边 ， 每 条 边 的 等 待 时 间 为 1。 第 4 条 指令 与 它 前 面 任意 一 条 指令 都 不 冲突 一 一 虽然 
[rl121(4) 与 zl151(4) 或 Lr15+4] (4) 表 示 的 可 能 是 同一 地 址 ， 但 因为 它们 都 是 取 指令 ， 并 且 在 它 
们 之 间 没 有 插入 对 这 些 地 址 的 存 指令 ， 所 以 它们 是 不 冲突 的 。 调 用 此 过 程 庆生 的 DA 本， 


9.3 循环 中 的 依赖 关系 


在 研究 数据 高 速 缓存 优化 时 ， 我 们 的 注意 力 几乎 完全 集中 于 数据 依赖 关系 ， 而 不 关心 控制 
依赖 关系 。 
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前 面 我 们 以 一 个 基本 块 中 标量 之 间 的 数据 依赖 关系 为 例 ， 介 绍 了 数据 依赖 关系 的 概念 , 分 “万 5 
析 这 种 依赖 关系 有 利于 进行 指令 调度 。 下 面 我 们 要 考虑 嵌 套 循环 中 涉及 带 下 标 变 量 的 语句 之 间 274 
的 依赖 关系 。 特 别 地 ， 我 们 考虑 以 HIR 代 码 表示 的 规范 形式 (canonical form) W RRETA 
的 带 下 标 变量 。 这 种 循环 的 索引 变量 从 1 变化 到 na， 步 长 为 1， 且 只 有 最 内 层 循环 体 中 包含 除 
for 语 句 以 外 的 语句 。 - 

图 9-7 中 循环 嵌 套 的 和 迭代 空间 (iteration space) 是 由 各 层 for i1 < 1 to ni do 


for i2 <- 1 to n2 do 


循环 索引 值 组 成 的 所 有 大 元 组 (〈 称 为 索引 向 量 ，index vector) 


构成 的 k 维 多 面体 。 显 然 它 是 各 层 循环 索引 值 域 的 乘积 ， 即 for ik < 1 tonk do 
[1..n1] x [1..n2] x ... x [1..nk] endfor 

其 中 [a. .b] 表 示 从 a 到 b 的 整数 序列 ，n1l，. . . ，nk 是 选 代 ator | 

变量 的 最 大 值 。 for 


endfor 





我 们 用 < 表示 索引 向 量 的 词典 顺序 。 这 样 ， 

«il, =, ik> < <il, =, ik,> 
当 且 仅 当 

3j 1< j&k, Ei, =i1, iG - D, =iG-D.Bi<ih, 
并 且 ， 特 别 地 ，0 < <i1,…, 认 >， 即 索引 向 量 ;是 词典 序 为 正 的 〈lexicographically positive), ， 如 果 

3j, 1&j&k, (il =0, …, ij- D -0Hij»0 
ER, HORE PRE <il, …, 大 > BPR b.e», SARS 

<il, =, ikj> <<il,, +--+, ik,> 

— A PERE NIK A, Kà (iteration-space traversal) 是 在 执行 该 做 套 时 遇 到 的 索引 向 
量 值 的 序列 ， 即 索引 向 量 的 词典 枚 举 。 我 们 用 对 应 于 索引 向 量 的 结 点 图 来 表示 遍历 ， 结 点 之 间 
的 虚线 箭头 指出 了 遍历 的 顺序 。 例 如 ， 对 于 图 9-8 中 的 循环 ， 其 迭代 空间 是 [1..3] x [1..4]， 
图 9-9 描 绘 了 该 色 代 空间 的 遍历 。 


图 9-7 一 个 规范 的 循环 嵌 套 


for il < 1 to 3 do 
for i2 < 1 to 4 do 
t<exty 


ali1,i2] © b[i1,i2] + c[it1,i2] . 
b[ii,i2] < a[ii,i2-1] * d[ii*1,i2] + t 
endfor 
endfor 





图 9-9 图 9-8 中 代码 的 迭代 空间 遍历 
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代 空 间 ， 它 的 迭代 空间 遍历 如 图 9-11 所 示 。 


for il < 1 to 3 do 





嵌 套 在 循环 中 的 带 下 标 变量 和 语句 之 间 的 for i2 < 1 to il+1 do 
依赖 关系 比 标量 情形 的 更 为 复杂 ， 因 为 这 种 依 SA tepida uri 
赖 关系 是 索引 变量 的 函数 。 我 们 用 语句 号 后 带 endfor 
中 括号 的 下 标 来 指明 索引 变量 的 值 ， 并 扩展 endfor 
符号 < 的 含义 ， [5185 il, es dk] S [il +, 图 9-10 —+- FUB AERE (C2 IRI 
ik JARS, [i1,, US ik, MES; [il;, Ut ik Z Bil TA. P. pi]: 078-79 3 - E28 
行 ， 其 中 直到 认为 包含 语句 $, 和 5, 的 那些 循环 的 i2 
循环 索引 ， 最 外 层 循环 的 在 前 。 注意，5[il， 
dk] < S, [il2,…, 认 ] 当 且 仅 当 在 程序 中 S$, 先 1 2 3 4 


FS, el, coy ik X cs, ik, RES SS, l Qo 
是 同一 语句 或 8, 在 9 之 后 且 均 有 <ili，…, ik < ^ 
«il, ttt ik, 7. 


对 于 图 9-8 给 出 的 例子 ， 有 下 列 执行 顺序 u 2 Or YO 


S2[ii, i2-1]«4 S3[i1, i2] Pd 

S2[i1, 12] < $3[i1 i2] 3 OF---->O------>O----->O 
以 及 对 应 的 依赖 关系 : 图 9-11 图 9-10 中 循环 九 套 的 梯形 达 代 空间 遍历 

S2[i1, i2-1] 8 S3[i1, i2] i2 


S2[i1, 12] &S3 [11, i2] 
类 似 于 和 迭代 空间 遍历 ， 循 环 体 中 的 依赖 关系 : O—O——O—QO - 
也 可 以 整体 地 用 图 来 表示 ， 如 图 9-12 所 示 。 
在 图 9-12 中 ， 我 们 省 略 了 表示 自 依赖 的 箭头 。 i 
注意 ,每 个 <i1, 1> 迭代 使 用 a[i1,0] 的 值 ， i 2 O—O—O—0O 
但 在 图 中 没有 表示 ， 因 为 0 不 是 循环 索引 i2 的 
合法 值 。 

下 面 我 们 介绍 用 于 表示 基于 循环 的 依赖 关 3 O——O——QO0-—O 
系 的 距离 向 量 、 方 向 向 量 和 依赖 向 量 .。 KAR 
套 循 环 的 距离 向 量 (distance vector) 是 一 个 天 图 9-12 图 9-8 中 代码 的 依赖 关系 
维 向 量 j= <d, …, di>， 其 中 ， 每 一 个 di 是 一 个 整数 ， 它 意味 着 对 于 每 一 个 索引 向 量 i AA 


索引 向 量 i+da<itd,--,i+d> 的 迭代 依赖 于 具有 索引 向 量 站 的 迭代 。 一 个 方向 向 量 
(direction vector) 近似 于 一 个 或 多 个 距离 向 量 ， 它 的 元 素 是 整数 值 域 ， 或 是 两 个 以 上 值 域 的 联 


合 ， 其 中 每 一 个 值 域 可 以 是 [0，01]、[1，=”]、[- 9. -IRL ”，=]。 方 向 向 量 有 两 组 经 党 


使 用 的 记 法 ， 如 下 所 示 : 
[0, 0] 





一 < > x 


在 第 二 组 记 法 中 ,符号 “*”,“< ”和 “>” 用 于 表示 值 域 的 联合 ， 其 含义 是 显然 的 。 这 样 ， 
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前 面 给 出 的 图 9-8 中 的 循环 侯 套 中 的 依赖 关系 可 以 用 下 面 的 距离 向 量 来 表示 : 

S2[i1, i2 -1]«0, 1» S3[i1, i2] 

S2[i1, i2] <0,0> S3[i1, i2] 
而 这 两 个 距离 向 量 可 以 归纳 (显然 要 损失 一 些 信息 ) 为 一 个 方向 向 量 <= ，< >。 

依赖 向 量 归 纳 了 前 两 种 向 量 。 大 层 媒 套 循环 的 依赖 向 量 (dependence vector) 是 一 个 k 维 向 
量 了 = [dr,d],…,[dr,dr]， 其 中 ， 每 个 [二 , 必 ] 是 一 个 整数 值 域 (可 能 是 无 穷 值 域 ) ， 且 无 穷 值 


域 满足 d eZuo(-) d'eZu(--),. Ald < d’。 注 意 ， 一 个 依赖 向 量 对 应 于 一 个 (可 能 无 穷 


个 ) 距离 向 量 集合 ， 称 这 个 距离 向 量 集合 为 它 的 距离 向 量 集 (distance vector set) DV ( j ), 
如 下 所 示 : . 


DV(d)- («a,,--.,a,»la, eZ) H. d; < a, < dj) 


如 果 对 于 1 «i«k, d -d/, ， 则 依赖 向 量 就 是 距离 向 量 。 为 方便 起 见 ， 我 们 只 写 一 个 值 而 不 写 
它们 的 值 域 。 如 上 所 示 ， 值 域 [1，]、[- 呈 ，- 1 和 [- ”“， 吕 对 应 于 方向 “+” 或 “< ”、 
“-” R “>” A “+” 或“*”。 

XRF, R-E FARRER AT A RA <0, [0, RER. 

注意 ， 距 离 向 量 为 <0，0，…，0> 的 依赖 关系 对 那 种 不 重 排 循环 体 中 语句 顺序 的 循环 变换 
没有 影响 。 因 此 ， 我 们 下 面 不 提 及 这 类 依赖 关系 。 

进一步 ， 一 个 依赖 关系 可 能 是 循环 无 关 的 〈(loop-independent) ， 即 独立 于 环绕 它 的 循环 ; 
也 可 能 是 循环 携带 的 〈loop-carried) ， 即 由 于 有 循环 才 出 现 的 依赖 关系 。 在 图 9-8 中 ， 因 为 S2 使 
用 b[il,i2] ， 而 S3 定 义 b[il,i2] ， 由 此 产生 了 S3 对 8S2 的 反 依 赖 关 系 ， 这 个 反 依 赖 关 系 是 循 
环 无 关 的 ， 因 为 即使 这 两 个 语句 不 在 循环 中 ， 反 依赖 关系 仍然 存在 。 相 反 ， 由 于 S$S2 置 a[] 的 一 
个 元 素 ，$3 在 这 循 环 的 一 个 迭代 之 后 使 用 该 元 素 , 由 此 产生 了 一 个 S3 对 S2 的 流 依赖 关系 ， 这 个 
流 依赖 关系 是 循环 携带 的 ， 具 体 地 说 ， 是 由 内 层 循环 携带 的 ， 去 掉 外 层 循 环 不 会 改变 这 个 依赖 
关系 。 为 表示 循环 无 关 的 依赖 关系 ， 在 它 的 依赖 关系 记号 上 加 一 个 下 标 0， 而 循环 i ( 从 外 往 里 
数 ) 携带 的 依赖 关系 则 加 一 个 下 标 i> 1。 这 样 ， 对 于 图 9-8 的 依赖 关系 我 们 有 : i 

S2[i1, i2 — 1]ô'S3[i1, i2] 

S2[i1, i2]ó; S3[ii, i2] 
或 用 距离 向 量 记 法 : 

S2[i1, i2-1] <0, 1>, S3[i1, i2] 

S2[i1, i2] <0, O>, S3[i1, i2] 


xx SERA: ZEB CSS ok EE ALIS AF (520.357). 
再 看 另 一 个 例子 ， 图 9-13 中 的 赋值 语句 中 的 依赖 关系 有 上 距离 向 量 <1 ，0> ， 该 依赖 关系 是 由 
外 层 循环 携带 的 ， 即 
S1[i1-1, j] «1, 05, S1[11, j] 
for i < 1 to n do 
for j < 1 to n do 
ali,j] < (a[i-1,j] + a[i*1,j31)/2.0 
endfor 
endfor 


图 9-13 一 个 具有 上 距离 向 量 为 <1，0> 的 依赖 关系 的 赋值 语句 S1 








N 
© 


0 


9.4 依赖 关系 测试 


在 20.4 节 中 ， 我 们 关注 为 更 好 地 发 挥 存储 器 层次 的 性 能 而 进行 的 循环 修 套 转换 。 大 多 数 这 
类 变换 仅 当 循环 伐 套 的 友 代 之 间 不 存在 依赖 关系 〈 其 种 类 与 具体 的 转换 相关 ) 时 才能 实行 。 因 
此 ， 首 先 必 须 能 够 确定 循环 俯 套 中 是 否 存在 依赖 关系 ， 如 果 存 在 ， 是 什么 依赖 关系 。 

考虑 图 9-14a 中 的 循环 例子 。 为 确定 在 同一 迭代 中 对 a [] 的 那些 引用 之 间 是 否 存在 依赖 关系 ， 
我 们 必须 确定 是 否 存在 一 个 整数 !， 满 足 方程 

2*i+t1L=3%i-5 
和 不 等 式 1<i<4。 显 然 当 且 仅 当 i= 6 等 式 才 成 立 ， 而 i 的 这 个 值 不 满足 不 等 式 ， 所 以 循环 中 不 
存在 同一 迭代 中 的 依赖 关系 ( 即 距离 为 0 的 依赖 关系 )。 


for i «- 1 to 4 do for i «- 1 to 4 do 
bli] < a[3*i-5] + 2.0 bli] € a(4*i] + 2.0 
a[2*i+1] < 1.0/i a[2*i*1] < 1.0/i 
endfor endfor 
a) b) 


图 9-14 用 于 依赖 关系 测试 的 两 个 HR 循环 代码 例子 


为 确定 在 不 同 迭 代 中 ， 对 于 a[] 的 引用 之 间 是 否 存在 依赖 关系 ， 我 们 寻找 满足 方程 

2*ií4123*i4-5 
fu E mide IST AE eo. AH, REARS. MERA, i=3*i, 5-2*i + 
2 都 满足 等 式 ， 并 且 对 于 i= 1， 我 们 有 i =3 和 i, =4， 两 者 都 满足 不 等 式 。 因 此 ， 在 循环 中 存在 
一 个 距离 为 正 数 的 依赖 关系 : a[7] 在 迭代 3 中 使 用 ， 在 迭代 4 中 赋值 。 

注意 ， 如 果 这 个 循环 上 、 下 界 不 是 常数 表达 式 ， 我 们 就 不 能 断定 不 存在 距离 为 0 的 依赖 关 
系 。 我 们 只 能 说 ， 可 能 存在 一 个 距离 为 0 或 距离 为 正 数 的 依赖 关系 ， 因为 不 等 式 不 再 适用 。 

下 面 我 们 将 循环 中 的 第 一 个 语句 改 为 取 a [4*i] ， 如 图 9-14b 所 示 。 于 是 ， 对 于 和 i 的 相同 
或 不 同 的 整数 值 ， 我 们 必须 满足 方程 

2*i 4124*i, 
也 必须 满足 与 上 面相 同 的 不 等 式 ， 显 然 这 是 不 可 能 的 。 先 不 考虑 不 等 式 ， 对 于 i 的 任意 值 ， 等 
式 左边 的 值 总 是 奇数 ; 而 对 于 记 的 任意 值 ， 等 式 右边 总 是 偶数 。 因 此 不 论 这 个 循环 的 上 下 界 取 
什么 值 ， 在 循环 中 均 不 存在 依赖 关系 。 

一 般 地 说 ， 测 试 循环 代 套 中 是 否 存在 依赖 关系 ， 如 果 存 在 ， 又 是 什么 类 型 的 依赖 关系 ， 是 
一 个 约束 的 丢 番 图 方程 (constrained Diophantine equation) 问题 , 即 求解 一 个 或 多 个 整 系数 方 
程 的 整数 解 ， 这 些 解 同时 满足 一 组 给 定 的 不 等 式 。 这 等 价 于 整数 规划 (integer programming), 
而 整数 规划 是 一 个 NP 完全 问题 。 然 而 ， 在 实际 程序 中 几乎 所 有 的 下 标 表达 式 都 是 非常 简单 的 。 

特别 地 ， 下 标 几乎 总 是 循环 索引 变量 的 线性 表达 式 ， 并 且 从 现在 开始 我 们 就 假定 是 这 样 。 
下 标 常常 是 一 个 索引 变量 的 线性 表达 式 ， 因此 ， 我 们 假定 给 定 一 个 n 层 循环 赂 套 如 图 9- 15 所 示 ， 
其 索引 变量 为 i 到 i,， 循 环 体 中 有 两 个 对 数组 元 素 x[] 的 引用 ， 其 下 标 都 是 循环 索引 变量 的 线性 
表达 式 。 这 两 个 数组 元 素 引 用 之 间 存 在 一 个 依赖 关系 当 且 仅 当 每 一 个 下 标 值 同时 满足 方程 


a, + Ya, *bo-bt Èb, *i > 
j=! i j=l 
和 不 等 式 
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1< i Shi, fll «ij, «hi, 其 中 j=1,…,n 
当然 ， 依 赖 关 系 的 类 型 由 x [. . . ] 的 每 一 个 实例 是 使 用 还 是 定 值 来 确定 。 有 许多 依赖 关系 测试 
方法 ， 我 们 详细 地 介绍 其 中 几 种 ， 并 列 出 其 他 方法 。 


for à «€ 1 to bi, do 
. for ij € 1 to bi; do 


for i, < 1 to bi, do 


n xL.., ag di* fo d ob dd, ...] e 
xL.., bot bis bud J ... 
endfor 
endfor 
endfor 


图 9-15 MTRK GR MTBUHIRJE CU Q8 £ 


现在 仍 在 使 用 的 最 早 的 测试 方法 是 由 Banerjee[Bane76] 和 Towle[Tow176] 提 出 的 GCD 
(greatest common divisor) 测试 。 从 它 证 明 不 存在 依赖 关系 的 能 力 来 说 ， 它 是 一 个 比较 弱 的 测 
试 。GCD 测 试 声称 ， 如 果 至 少 存在 某 一 维 下 标 ，- 


gcd (0 sep(a;, b j» ) x Y (aj — bj 


j=1 j=0 





其 中 ，gcd () 是 最 大 公约 数 函数 ,“a 1 b” 表 示 a 不 能 整除 b， 而 sep(a, b, DELAS 


la-b) 车 方向 是 = 
(ab) 否则 


则 对 x[…] 的 这 两 个 引用 是 不 相关 的 ; 或 等 价 地 说 ， 如 果 存 在 一 个 依赖 关系 ， 则 GCD 整 除 这 个 
和 。 例 如 ， 对 于 图 9-14a 中 的 循环 ， 对 同一 个 迭代 中 的 依赖 关系 测试 归结 为 
ged(3 - 2) { (-5-1+3-2) 
或 11 -5， 它 不 为 真 ， 这 只 能 告诉 我 们 可 能 存在 依赖 关系 。 类 似 地 ， 对 于 迭代 之 间 的 依赖 关系 ， 我 们 有 
gcd(3, 2) (- 5-1 +3-2) 
REAAL 一 5， 它 也 不 为 真 ， 这 只 能 说 明 可 能 存在 依赖 关系 。 另 一 方面 ， 对 于 图 9- 14b 中 的 
例子 ， 我们 有 
gcd(4, 2) / (-1=+4-2) 
它 可 简化 为 2 4 1。 因 为 这 为 真 ， 故 这 两 个 数组 引用 是 不 相关 的 。 
GCD 测 试 可 以 推广 到 任意 循环 下 界 和 循环 增 量 。 为 此 ， 假 定 第 / 层 循环 控制 语句 为 
for i, «lo, by inc; to hi, 


则 GCPD 测 试 声 称 ， 如 果 至 少 存在 某 一 维 下 标 ， 


sep(a, b, j) = 


© itk. 对 于 所 有 a 和 b， 因为 gcd(a, b) — gcd(a, a - b) - gcd(b, a-b), 方向 为 不 等 的 情况 包含 了 方向 为 相等 的 
情况 。 


t2 
oo 
© 
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gcd (U sep(aj » incj, bj * inc, ) 小 do — bo + Y (aj — bj) * loj 
j=1 j=1 
则 x[.…] 的 这 两 个 实例 是 不 相关 的 。 
数组 引用 的 两 种 重要 类 型 是 可 分 的 数组 引用 和 弱 可 分 的 数组 引用 。 可 以 发 现 ， 在 大 量 的 实 


、 际 程序 中 都 是 这 两 类 引用 ， 而 几乎 没有 其 他 形式 的 引用 。 一 对 数组 引用 是 可 分 的 (separable), 


如 果 每 一 对 下 标 表 达 式 的 形式 都 是 a*i +b, 和 a*iztb,， 其 中 i 是 循环 控制 变量 ，a、b,、bs 是 常数 。 
一 对 数组 引用 是 弱 可 分 的 (weakly separable ) ， 如 果 每 一 对 下 标 表 达 式 的 形式 都 是 wsz + bU 
a*i +b,， 其 中 i 是 循环 控制 变量 ，a,、a,、b1!、bs 是 常数 。 图 9-14 中 的 两 个 例子 都 是 弱 可 分 的 ， 
但 不 是 可 分 的 。 

对 于 一 对 可 分 的 数组 引用 ， 依 赖 关 系 测 试 是 容易 的 : 它们 之 间 存在 依赖 关系 ， 如 果 对 于 每 
个 下 标 ， 下 面 的 任意 一 个 条 件 成 立 : 

l.a- 0} H.b,=b,, 或 者 

2.(bj-b)la hi, | 

对 于 一 对 弱 可 分 的 数组 引用 ， 对 每 维 下 标 位 置 /有 一 个 线性 方程 

a,*y+b,=a,*x+b, 
或 

a,*y=a,*x+ (b; — bi) 
如 果 对 于 j 的 一 个 特定 值 ， 每 组 方程 有 一 个 满足 由 循环 的 上 下 界 给 定 的 不 等 式 的 解 ， 则 这 两 个 
引用 之 间 存 在 依赖 关系 。 下 面 我 们 应 用 线性 方程 组 的 理论 ， 将 问题 分 为 以 下 几 种 情况 (在 每 种 
情况 下 ， 当 且 仅 当 方 程 组 的 解 满足 上 下 界 不 等 式 时 ， 其 解 才 表 示 依 赖 关 系 ): 

(a) 如 果 方 程 组 中 只 有 一 个 方程 ， 其 形式 如 上 所 示 ， 则 我 们 有 一 个 含 两 个 未 知 量 的 线性 方 
程 ， 它 有 整数 解 当 且 仅 当 gcd(ai, a,)\(b, - b). 

(b) 如 果 方 程 组 中 有 两 个 方程 ， 即 i 

a,,* y za, 1* x €(b; i7 bi) 
和 

0, ;* y =a, ;* x +(b,, > By») 
则 这 是 一 个 含 两 个 未 知 量 的 方程 组 。 ia, i/d4,4 = 45, [d 25 则 存在 有 理解 当 且 仅 当 

(bb a, 17 25 bi, 3) 41,5 

且 这 些 解 很 容易 枚 举 。 如 果 a, Ja, a, xyai>， 则 存在 一 个 有 理解 ， 且 不 难 确定 这 个 解 。 


在 这 两 种 情况 下 ， 我 们 都 要 检查 解 是 否 为 整数 且 满 足 不 等 式 的 要 求 。 


(c) 如 果 方 程 组 中 的 方程 数 n > 2， 则 或 者 n - 2 个 方程 是 元 余 的 ， 可 以 按 (b) 的 方法 处 理 ; 
或 者 这 是 一 个 两 个 未 知 数 的 、 至 少 由 3 个 以 上 方程 组 成 的 超 定 方程 组 。 . 

作为 一 个 弱 可 分 的 例子 ， 考 虑 图 9-16 中 的 循环 全套。 首先 考虑 对 g [ 1 的 两 个 引用 。 如 果 它 
们 之 间 存 在 依赖 关系 ， 则 对 于 第 一 个 下 标 有 

2*x=yrl 
对 于 第 2 个 下 标 有 


z=3*w 
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这 两 个 方程 是 互 不 相关 的 且 每 个 方程 都 有 无 穷 个 整数 解 。 具 体 地 说 ， 只 要 n > 3, 这 两 个 数组 
引用 之 间 就 存在 依赖 关系 。 对 于 对 h [ ] 的 两 个 引用 ， 它 


for i < 1 to n do 


们 必须 同时 满足 for j < 1 to n do 
x=y+2 f(i] < g[2*i,j] + 1.0 
和 gli*1,3*j] < h[i,i] - 1.5 


h[i*2,2*i-2] < 1.0/i 
x22*y-2 endfor ` 


endfor 


显然 ， 两 个 方程 同时 成 立 当 且 仅 当 x= 6 和 y=4， 所 图 9-16 弱 可 分 的 一 个 例子 


以 存在 依赖 关系 当 且 仅 当 *” > 6。 
前 面 已 经 指出 ， 还 有 许多 测试 能 力 和 计算 开销 各 不 相同 的 其 他 的 依赖 关系 测试 方法 (参见 
9.8 节 的 进一步 阅读 )。 它 们 包括 : 
1. 扩展 GCD 测 试 ; 
2. 强 和 弱 单 索 引 变 量 (single index variable, SIV) 测试 ; 
3. Delta 测 试 ; 
4. Acyclic 测 试 ; 
Power 测 试 ; 
简单 循环 余数 测试 ; 
. Fourier-Motzkin 测 试 ; 
. 约束 矩阵 测试 ; 
Omega 测试 。 


9.5 程序 依赖 图 


程序 依赖 图 (program-dependence graph, PDG) 是 用 于 优化 的 一 种 中 间 代 码 形式 。 一 个 程 
序 的 PDG 由 一 个 控制 依赖 图 (CDG) “和 一 个 数据 依赖 图 组 成 。PDG 中 的 结 点 可 以 是 基本 块 、 
语句 、 单 个 操作 ， 或 某 种 中 间 层 次 上 的 结构 。 数 据 依赖 图 已 经 在 9.1 节 和 9.3 节 中 作 了 介绍 。 

CDG 最 基本 的 形式 是 一 种 以 程序 谓词 ( 当 结 点 为 基本 块 时 ， 则 使 用 以 谓词 结束 的 基本 块 ) 
作为 根 结 点 和 中 间 结 点 ， 以 程序 的 非 谓词 结 点 作为 叶 结 点 的 DAG。 如 果 在 程序 执行 过 程 中 ， 
在 控制 依赖 图 中 通 向 一 个 叶 结 点 的 路 径 上 的 谓词 被 满足 ， 则 该 叶 结 点 将 被 执行 。 

更 具体 地 说 ， 令 G=<N, E> 是 一 个 过 程 的 流 图 。 结 点 m 是 结 点 4 的 后 必 经 结 点 ， 记 作 m pdom 
.nn， 当 且 仅 当 从 n 到 过 程 出 口 的 每 一 条 路 径 都 通过 m ( 见 7.3 节 )。 所 以 ， 结 点 n 控 制 依赖 (control 

dependent) FA Am, 4HM4 l 

1. 存在 一 条 从 m 到 n 的 控制 路 径 ，n 是 该 路 径 上 除 m 之 外 的 每 个 结 点 的 后 必 经 结 点 ， 并 且 

2.n 不 是 m 的 后 必 经 结 点 。。 l 

为 构造 CDG， 我 们 先 构造 基本 CDG ， 再 在 其 上 加 入 区 域 结 点 (region node )。 构 造 基本 
CDG 时 ， 先 在 流 图 上 增加 一 个 称 为 start 的 虚构 谓词 结 点 ， 它 的 “Y” 边 指向 人 口 结 点 ， 
边 指向 出 口 结 点 。 由 此 得 到 的 图 称 为 G+。 下 一 步 ， 在 G+ 上 构造 后 必 经 关系 2， 这 个 关系 可 以 
用 一 棵 树 来 表示 ，、 并 且 定 义 S 为 G+ 中 所 有 符合 n 不 是 m 的 后 必 经 结 点 条 件 的 边 m 一 n 组 成 的 集合 。 


UA 


eo OID 


O [Fero87] 定 义 了 两 种 控制 依赖 关系 图 ， 我 们 这 里 讨论 的 一 种 (作者 称 为 精确 CDG) 和 另 一 种 近似 CDG。 对 
于 结构 良好 的 程序 ， 近 似 CDG 能 表示 与 精确 CDG 同 样 的 依赖 关系 ， 用 它 能 比较 容易 地 生成 串 行 代码 。 

O 注意 ， 这 种 控制 依赖 关系 是 9.1 节 中 讨论 的 控制 依赖 关系 的 子 关系 。 

加 “这 可 以 通过 逆转 流 图 中 的 边 ， 并 使 用 7.3 节 介绍 的 两 种 必 经 结 点 算法 之 一 来 实现 。 
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对 于 每 一 条 边 m~ nc S$， 我 们 在 后 必 经 结 点 树 中 确定 m 和 nn 的 最 低 公共 祖先 ( 当 m 是 根 结 点 时 ， 
就 是 m 本 身 )。 所 得 到 的 这 个 结 点 ! 要 么 是 m， 要 么 是 m 的 父 结 点 ， 并 且 在 后 必 经 结 点 树 中 从 I 到 n 
路 径 上 的 所 有 属于 集合 N 的 、 除 /之 外 的 结 点 都 控制 依赖 于 m。 
例如 ， 考 虑 图 7-4 给 出 的 流程 图 。 它 加 上 start 结 点 后 如 图 9-17 所 示 ， 而 其 后 必 经 结 点 树 
如 图 9-18 所 示 。 人 集合 S 由 start~entry、B1”B2、B1-~B3 和 B4~B6 组 成 。 基 本 CDG 如 图 
9-19 所 示 。 


exit 





start B2 B5 B1 
B4 entry 
B3 B6 
图 9-17 在 图 7-4 的 流 图 中 加 入 了 start 结 点 图 9-18 图 7-17 流 图 的 后 必 经 结 点 树 


区 域 结 点 的 用 途 是 将 那些 对 同一 个 特定 的 谓词 结 点 有 控制 依赖 关系 的 所 有 结 点 组 合 在 一 
起 ， 使 每 个 谓词 结 点 如 同 原 控制 流 图 一 样 至 多 只 有 两 个 后 继 。 我 们 的 例子 加 入 区 域 结 点 后 如 图 
9-20 所 示 。 l 


NU Y 

start a" 

' A, | 

N Bi Y B3 B4 B5 B2 
N N Y! 
B3 B4 B5 B2 R3 
| | 
| B6 B6 

图 9-19 图 9-17 流 图 的 基本 控制 依赖 图 图 9-20 图 9-17 流 图 的 带 有 区 域 结 点 的 控制 依赖 图 


PDG 的 一 个 重要 性 质 是 ， 对 于 控制 依赖 于 同一 结 点 的 所 有 结 点 ， 例 如 例子 中 的 B3 和 B5 ， 
只 要 它们 之 间 没 有 数据 依赖 关系 ， 就 可 以 并 行 执行 。 

一 些 文献 中 提出 了 其 他 几 种 其 目的 类 似 于 程序 依赖 图 的 中 间 代码 形式 ， 包 括 依赖 流 图 、 程 
序 依赖 网 和 值 依赖 图 。 
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9.6 动态 分 配 的 对 象 之 间 的 依赖 关系 


前 面 我 们 已 讨论 了 机 器 指令 和 数组 访问 之 间 的 依赖 关系 及 程序 依赖 图 。 另 一 个 要 考虑 的 
方面 是 大 量 由 指针 链接 的 动态 分 配 的 数据 结构 ， 例 如 表 、 树 、DAG， 以 及 用 于 代数 和 符号 语 
言 (如 LISP、Prolog 和 Smalltalk) 的 其 他 图 结构 。 如 果 我 们 可 以 确定 一 个 数据 结构 或 图 ( 例 
如 链表 、 树 或 DAG ) 决 不 会 是 共享 的 ， 或 它 的 某 些 部 分 决 不 会 是 共享 的 (共享 是 指 从 两 个 变 
量 同 时 通过 一 个 指针 链 访问 )， 我 们 就 可 能 像 数 组 的 情形 一 样 ， 改 善 它 的 存储 分 配 或 高 速 缓存 
分 配 。 

这 个 领域 的 先驱 性 工作 是 Tenenbaum 及 Jones 和 Muchnick 在 20 世 纪 70 年 代 中 期 进行 的 ， 其 主 
要 目的 是 在 一 个 事先 只 有 数据 对 象 有 类 型 的 语言 中 ， 给 变量 也 哑 予 数据 类 型 。 近 年 来 这 个 领域 
的 研究 很 活跃 。 最 近 Deutsch、Hummel、Hendren 和 Nicolau 等 人 的 文章 提出 的 若干 方法 虽 能 得 
到 令 人 印象 深刻 的 结果 ， 但 这 些 方 法 的 计算 量 都 很 大 (进一步 的 阅读 见 9.8 节 ) 。 

我 们 简要 地 介绍 Hummel、Hendren 和 Nicolau 开 发 的 一 种 技术 ， 它 所 做 的 有 3 部 分 工作 : (1) 
它 开发 了 一 种 通过 描述 堆 存储 器 中 匿名 存储 单元 之 间 的 关系 ， 对 这 些 存储 单元 进行 命名 的 机 
fill; (2) 它 开发 了 刻画 数据 结构 中 存储 单元 之 间 的 基本 别名 关系 或 设 有 别名 关系 的 若干 公理 ; 
(3) 它 用 一 个 定理 证 明 器 来 建立 这 些 结构 所 期 望 的 性 质 ， 例 如 一 个 特定 的 结构 是 一 个 以 链表 表 
示 的 队列 ， 此 队列 的 表 项 从 一 端 加 入 ， 从 另 一 端 移出 。 

这 种 命名 机 制 使 用 记录 中 的 固定 存储 单元 和 字段 的 名 字 来 指明 关系 ， 特 别 是 它 使 用 了 句柄 
(handle) 和 访问 路 径 和 矩阵 (access-path matrices), ， 句 柄 命名 结构 中 的 固定 结 点 〈 通 常 是 指针 变 
量 )， 并 具有 _hvar 的 形式 ， 其 中 var 是 变量 名 ; 访问 路 径 矩 阵 表 示 句 柄 和 变量 之 间 的 关系 。 这 
样 ， 对 于 图 9-21a 中 的 C 语 言 的 类 型 声明 和 某 些 特殊 的 程序 ， 可 应 用 图 b) 中 的 公理 。 例 如 ， 第 3 
条 公理 声称 指针 变量 p 通 过 1eft 或 right 分 量 的 一 个 或 多 个 访问 可 到 达 的 任意 存储 单元 与 p 本 
身 表 示 的 存储 单元 是 不 同 的 。 


Axi: Vp p.left * p.right 

Ax2: Vp,q p * q = p.left + q.left, 
p.left * q.right, 
p.right * q.left, 
p.right * q.right 


typedef struct node ístruct node *left; 
struct node *right; 
int val) node; 


Ax3: Vp p(.left|.right)* * p.c 





: a) b) 
图 9-21 a) 递归 数据 结构 的 C 语 言 类 型 声明 的 例子 ，b) 作用 于 从 这 个 声明 构造 出 来 的 结构 的 公理 
图 9-22 给 出 了 一 个 C 函 数 ， 它 使 用 了 图 9-21a 定 义 的 数据 类 型 ， 并 满足 给 定 的 公理 。 表 9-1 
给 出 了 恰 在 return 语 句 之 前 的 程序 点 的 访问 路 径 矩 阵 。 给 定 图 9-21b 中 的 公理 ， 定 理 证 明 器 可 
以 证 明 该 函数 返回 0。 : 
359-1 图 9-22 中 程序 在 return 语 句 之 前 那 一 点 的 访问 路 径 和 矩阵。 在 行 _hvar 1 和 列 var 2 的 交叉 点 上 的 
WART J var 1 原始 的 值 到 var 2 现在 的 值 的 路 径 。" 一 ”表示 不 存在 这 样 的 路 径 








ptr pi p2 
-hptr € left* right* 
-hpi - left* right* 
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typedef struct node {struct node *left; 
struct node *right; 
int val} node; 


int follow(ptr,i,j) 
struct node *ptr; 
int i, j;. 
struct node *pi, *p2; 


int n; 

pl ptr; 

p2 = ptr; 

for (n = 0; n < i; n++) 
pi = pi->left; 

for (n = 0; n < j; n++) 
p2 = p2->right; 

return (pl == p2); 





图 9-22 一 个 使 用 图 9-21 中 定义 的 类 型 结构 的 C 函 数 例子 
注意 ,正如 大 多 数 强 有 力 的 定理 一 样 ， 描 述 指针 操作 的 定理 是 不 可 判定 的 。 因 此 ， 定 理 证 
明 器 对 于 一 个 特定 的 问题 可 能 给 出 “是 ”"、“ 不 是 ”或 “可 能 ”的 回答 。 


9.7 小 结 


如 我 们 在 本 章 看 到 的 ， 对 于 后 面 将 要 用 两 章 的 篇 幅 分 别 讨论 的 指令 调度 和 数据 高 速 缓存 优 
化 ， 依 赖 关 系 分 析 是 一 个 重要 的 工具 。 

对 于 指令 调度 ， 依 赖 关 系 分 析 确定 为 正确 执行 程序 在 指令 之 间 必 须 遵 循 的 顺序 关系 ， 从 
而 也 就 确定 了 调度 器 通过 重新 安排 指令 顺序 来 改善 程序 性 能 的 自由 度 。 在 进行 指令 调度 时 ， 
调度 器 要 考虑 尽 可 能 多 的 相关 资源 。 它 必须 确定 那些 对 寄存 器 和 隐 含 资源 (例如 条 件 码 ) 有 
影响 和 依赖 于 它们 的 指令 之 间 的 顺序 。 通 常 它 还 将 尽 可 能 地 消除 存储 地 址 的 歧义 性 ， 以 便 为 
调度 提供 最 大 的 调度 空间 。 存 储 地 址 歧义 性 的 消除 常常 依赖 于 编译 过 程 中 前 面 各 遍 传递 给 它 
的 信息 。 

作为 数据 高 速 缓 存 优 化 的 工具 ， 依 赖 关 系 分 析 的 基本 用 途 是 ， 对 于 两 个 或 更 多 给 定 的 存储 
器 引用 ， 确 定 它们 访问 的 存储 区 间 是 否 重合， 如 果 重 登 ， 它 们 之 间 的 关系 如 何 。 通 常 这 些 引 用 
是 嵌 套 在 一 个 或 多 个 循环 中 的 带 有 下 标的 数组 引用 。 例 如 ， 确 定 两 个 (或 所 有 ) 引用 是 否 都 写 
入 相同 的 存储 单元 ， 或 是 否 一 个 引用 写 入 一 个 单元 ， 另 一 个 引用 读 取 该 单元 ， 等 等 。 通 过 确定 
存在 哪些 依赖 关系 ， 它 们 是 由 哪些 循环 携带 的 ， 从 而 为 以 改善 数据 高 速 缓 存 性 能 为 目的 的 循环 
重 排序 或 修改 循环 和 数组 引用 提供 了 大 量 必需 的 信息 。 依 赖 关系 分 析 也 是 自动 向 量化 、 并 行 化 
编译 器 的 基本 工具 ， 但 这 些 问 题 超出 了 本 书 的 范围 。 

同时 ， 我 们 讨论 了 一 种 相对 较 新 的 、 称 作 程序 依赖 图 的 中 间 代 码 形 式 ， 这 种 程序 依赖 图 将 
依赖 关系 明显 地 表示 出 来 ， 并 且 被 建议 作为 进行 数据 高 速 缓存 优化 和 其 他 优化 的 基础 。 我 们 还 
提 及 了 几 种 类 似 的 中 间 代 码 形式 ， 目 前 还 不 清楚 它们 之 间 哪 一 种 ， 或 是 否 有 一 种 会 成 为 重要 的 
优化 工具 。 

最 后 我 们 讨论 了 用 指针 访问 的 动态 分 配对 象 的 依赖 关系 分 析 技 术 。 这 是 一 个 研究 了 20 余 年 
的 领域 ， 虽 然 已 经 有 了 能 有 效 地 进行 这 种 分 析 的 几 种 方法 ， 但 它们 都 有 非常 大 的 计算 量 ， 这 使 
得 人 们 对 这 些 技术 能 否 成 为 商业 化 编译 器 的 重要 组 件 仍 存在 疑问 。 
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9.8 进一步 阅读 


对 如 何 使 用 依赖 关系 分 析 技 术 进 行 向 量化 或 并 行 化 感 兴 趣 的 读者 请 参阅 [Wolf92]、 
[Wolf89b] 、[Bane88] 或 [ZimC91]。 

[BraH91] 介 绍 了 如 何 使 用 资源 向 量 来 计算 等 待 时 间 。 本 书 关 于 MIPS R4000 的 浮 点 流水 
. 线 的 描述 是 依据 [KanH92] 给 出 的 。[ProF94] 介 绍 了 如 何 使 用 确定 的 有 限 自 动机 来 计算 等 待 
时 间 .。 

yess 向 量 是 Wolf 和 Lam 在 [WolL91] 中 定义 的 。 关 于 循环 嵌 套 中 的 一 般 依 赖 关 系 测 试 是 

-完全 问题 的 证 明 可 以 在 [MayH91] 中 找到 。Banerjee 和 Towle 开 发 的 GCD 测 试 在 [Bane76] 和 
[Tew7 中 作 了 措 述 。 可 分 的 和 弱 可 分 的 数组 引用 定义 于 [Call86]。 其 他 正在 使 用 的 依赖 关系 
测试 方法 如 下 所 示 : 


依赖 关系 测试 参考 文献 
扩展 GCD 测 试 [Bane88] 
强 和 弱 单 索引 变量 (SIV) 测 试 [GofK91] 
Delta 测 试 [GofK91] 
Acyclic 测 试 [MayH91] 
Power 测 试 [WolT90] 
单 循环 余数 测试 [MayH91] 
Fourier-Motzkin 测 试 [DanE73] 和 [MayH91] 
约 东 矩阵 测试 [Wall88] 
Omega 测试 [PugW92] 





[GofK91] 和 [MayH91] 评 估 了 若干 种 测试 方法 的 适用 性 和 实用 性 。 

程序 依赖 图 在 [Fer087] 中 定义 。 可 供 选 择 的 几 种 形式 是 [JohP93] 定 义 的 依赖 关系 流 图 、 
[CamK93] 定 义 的 程序 依赖 网 和 [WeiC94] 定 义 的 值 依赖 图 。 

给 动态 语言 中 的 变量 赋予 类 型 的 早期 工作 是 Tenenbaum ([Tene74a]fü[Tene74b]) 和 Jones 
及 Muchnick ( [JonM76] 和 [JonM78]) 所 做 的 。 

研究 存储 器 使 用 特性 和 递归 数据 结构 之 间 的 依赖 关系 特性 的 一 些 开拓 性 工作 是 由 Jones 和 
Muchnick 完 成 的 JonM81a]。 近 期 的 工作 反映 在 [WolH90]、[Deut94] 和 [HumH94] 中 。 l 


9.9 练习 


9.1 (a) 在 下 面 基 本 块 中 的 LIR 指 令 之 间 存 在 哪些 依赖 关系 ? (b) 使 用 Build_DAG () 构 


造 该 基本 块 的 调度 DAG， 并 画 出 所 得 到 的 依赖 DAG。 


ri < [r7+4] (4) 
r2 < fr7+8] (2) 
r3 € r2 +2 
r4 «- ri + r2 
[r5](4) < r4 
r4 < r5 - r3 
[r5] (4) «€ r4 
[r7+r2] (2) < r3 
r4 «- r3 + r4 
r3 < r7 + x4 
r7 «€-r7 +2 


9.2 令 浮 点 加 指令 有 如 下 的 资源 向 量 : 


N 
© 


N 
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1 2 3 4 5 | 6 |7 
U | SA | AR | RS 


假定 LIR 的 加 法 指令 £4 — £3 + 1.0 在 时 钟 周 期 1 可 以 启动 执行 ， 流 水 线 中 包含 
的 指令 在 流水 线 的 各 级 上 使 用 的 执行 资源 如 下 所 示 ， 计 算 该 指令 的 等 待 时 间 。 

1 2 3 4 5 6 7 8 9 10 11 
M |UA | A S R,S S M M,U A S,A R 


9.3 Hewlett-Packard 的 PA-RISC 编 译 器 由 下 至 上 ， 即 从 叶 结 点 到 根 结 点 来 构造 基本 块 的 
调度 DAG， 以便 追踪 对 条 件 标志 的 使 用 和 对 这 些 条 件 标 志 进 行 设置 的 指令 。 编 写 
一 个 名 为 Build_Back_DAG () 的 Build_DAG () 的 版 本 ， 实 现 对 LIR 代 码 以 这 种 
方式 由 下 至 上 地 构造 DAG。 

ADV 9.4 研究 将 依赖 图 从 基本 块 扩 展 到 不 包含 循环 的 任意 单 和 人口 、 单 出 口子 流 图 的 表示 。 这 

能 为 指令 调度 提供 更 大 的 自由 度 吗 ?如 果 能 ， 给 出 一 个 例子 。 如 果 不 能 ， 为 什么 ? 

9.5 下 面 3 层 嵌 套 的 HIR 循 环 的 迭代 空间 遍历 是 什么 ? 

for i < 1 to n do 


for j < n by -1 to 1 do 
for k «- 1 to nti do 


$1 A[i,j,k] < A[i,j-1,k-1] + A[i-1,j,k] 
S2 B[i,j-1,k] < Afi,j-1,k-1] * 2.0 
S3 Ali,j,ktil € B[i,j,k] + 1.0 
endfor 
endfor 
endfor 


9.6 上 题 的 循环 其 套 有 什么 样 的 执行 顺序 和 依赖 关系 ? 
97 (a) 写 一 个 算法 ， 对 于 给 定 的 距离 向 量 ， 它 产生 包含 该 距离 向 量 的 最 小 依赖 关系 向 
量 ， 这 里 4 包含 d, 当 且 仅 当 d, 表 示 的 所 有 依赖 关系 也 被 4 表示 。(b) 对 方向 向 量 做 同 
样 的 工作 。 
9.8 给 出 一 个 使 用 GCD 测 试 能 够 确定 不 存在 依赖 关系 的 3 层 循环 做 套 。 
RSCH 9.9 “研究 [GofK91] 描 述 的 Delta 测 试 。(a) 它 是 如 何 测试 依赖 关系 的 ? (b) 它 的 效率 如 
fs]? (c) 它 的 开销 如 何 ? 
RSCH 9.10 研究 [PugW92] 描 述 的 Omega 测试 。(a) 它 是 如 何 测试 依赖 关系 的 ? (b) 它 的 效率 如 
何 ? (c) 它 的 开销 如 何 ? 
RSCH 9.11 研究 如 何 将 依赖 关系 扩展 到 并 行 语言 中 对 共享 变量 的 同步 访问 ， 即 在 这 种 情况 下 ， 
$,8 S. SE 5; 等 的 含义 是 什么 ? 





第 10 章 别名 分 析 


”别名 分 析 指 的 是 判定 可 能 用 两 种 以 上 的 方式 来 访问 的 存储 位 置 。 例 如 ， 对 于 C 的 变量 ， 可 
以 取 其 地 址 ， 并 且 可 以 通过 变量 名 或 者 通过 指针 来 读 写 它 ， 如 图 10-1 所 示 。 图 10-2 是 图 10-1 所 
示 情 形 的 形象 化 表示 ， 其 中 方 框 代表 变量 ， 每 一 个 方 框 用 一 个 变量 名 来 标识 ， 框 内 给 出 的 是 变 
量 的 值 。 如 第 8 章 提 到 的 ， 判 断 程序 中 别名 可 能 存在 的 范围 是 保证 程序 优化 正确 性 的 关键 ， 而 
对 尽 可 能 沿 进 的 优化 而 言 ， 使 所 找到 的 别名 集 尽 可 能 小 则 相当 重要 。 假 如 我 们 碰巧 遗漏 了 一 个 
应 当 识 别 出 来 的 别名 ， 就 很 容易 导致 产生 不 正确 的 程序 代码 。 考 虑 图 10-3 中 的 C 代 码 段 ， 其 中 ， 
S B DOM E O 的 调用 和 通过 指针 a 的 赋值 语句 未 改变 k 和 a 的 值 ， 第 二 个 k=a+5 的 赋值 才 是 
宛 余 的 。 因 为 k 的 地 址 传递 给 了 f () ， 故 kx 的 值 有 可 能 被 改变 。 又 因为 g 是 外 部 量 ， 故 有 可 能 
f () 或 者 过 程 examl () 中 某 些 更 早 的 代码 已 使 它 指 向 了 a 或 K。 如 果 出 现 这 两 种 情况 之 一 ， 第 
二 个 k=a+5 的 赋值 就 可 能 不 是 宛 余 的 ; 如 果 这 两 种 情况 都 不 出 现 ， 这 个 赋值 就 是 元 余 的 。 这 
个 例子 说 明了 过 程 内 和 过 程 间 别 名 判定 的 意义 。 在 实际 中 ， 过 程 内 的 别名 判定 通常 更 重要 。 本 
章 详 细 地 讨论 过 程 内 的 别名 判定 ， 而 将 过 程 间 的 别名 分 析 留 到 第 19 章 讨论 。 

examl( ) 


{ int a, k; 
extern int *q; - 


main() 。。， 
k=a+5; 


f(a,&k); 
*q = 13; 
n= 4; k=a +5; /* redundant? */ 


printf ("4d\n",*p); 





图 10-1 C 的 简单 指针 别名 用 法 ”图 10-2 图 10-1 中 在 printf() — 图 10-3 说 明 别名 分 析 重要 性 的 例子 
调用 点 变量 之 间 的 关系 | 

虽然 高 质量 的 别名 信息 对 激进 的 和 正确 的 优化 是 重要 的 ， 但 许多 程序 却 只 需要 最 少量 的 这 种 
信息 。 尽 管 C 程 序 可 以 有 任意 复杂 的 别名 ， 但 对 大 多 数 C 程 序 而 言 ， 只 需 假定 只 有 那些 取 了 其 地 
址 的 变量 会 发 生 别 名 ， 并 且 任 何 指针 值 变 量 可 能 指向 它们 就 足够 了 。 多 数 情况 下 这 种 假定 对 优化 
的 限制 最 小 。 但 另 一 方面 ， 假 若 我 们 有 一 个 含有 200 个 变量 的 C 程 序 ， 其 中 100 个 变量 取 了 其 地 址 ， 
另 100 个 变量 是 指针 ， 则 显然 激进 的 别名 分 析 对 可 施加 于 该 程序 的 很 多 优化 而 言 就 很 重要 。 

在 后 面 关 于 全 局 优化 的 几 章 中 ， 我 们 一 般 假 定 已 经 执行 过 了 别名 分 析 并 且 不 再 提 及 它 。 但 
无 论 如 何 读者 必须 知道 ， 正 如 前 面 的 例子 说 明 的 那样 ， 别 名 分 析 是 正确 实现 大 多 数 优 化 的 保证 。 

区 分 可 能 (may) 别名 信息 和 一 定 (must) 别名 信息 对 别名 分 析 会 有 所 帮助 。 前 者 指出 在 
流 图 的 某 条 路 径 上 可 能 出 现 的 情况 ， 而 后 者 指出 在 流 图 的 每 一 条 路 径 一 定 出 现 的 情况 。 例 如 ， 
如 果 一 个 过 程 的 每 一 条 路 径 都 含有 将 变量 x 的 地 址 赋 给 变量 p 的 赋值 ， 并 且 P 只 被 赋予 了 此 值 ， 
则 “p 指 向 x” 就 是 这 个 过 程 的 一 定 别名 信息 。 另 一 方面 ， 如 果 该 过 程 含有 的 路 径 中 有 一 条 路 
径 是 将 变量 y 的 地 址 赋 给 指针 变量 qa， 而 其 他 的 路 径 是 将 变量 z 的 地 址 赋 给 指针 变量 q， 则 “a 可 
能 指向 y 或 2” 就 是 可 能 别名 信息 。 

区 分 流 敏 感 和 流 不 敏感 别名 信息 对 别名 分 析 也 是 有 帮助 的 。 流 不 敏感 (flow-insensitive ) 


N 
n 





信息 与 过 程 内 的 控制 流 无 关 ， 而 流 敏 感 (flow-sensitive) 别名 信息 与 控制 流 相关 。 关 于 别名 的 
流 不 敏感 说 法 的 一 个 例子 是 : “p 可 能 指向 x， 因 为 存在 着 一 条 路 径 ， 在 此 路 径 上 p 被 赋予 了 x 的 
地 址 .。” 这 和 句 话 简单 地 指出 一 个 具体 的 别名 关系 可 能 存在 于 过 程 的 任何 地 方 ， 因 为 这 个 别名 关 
系 确实 在 过 程 的 某 个 地 方 存在 。 对 于 流 敏感 ， 则 可 以 指出 “p 指 向 基本 块 B7 中 的 x"。 上 面 提 到 
的 那个 对 取 了 其 地 址 的 变量 做 简单 区 分 的 C 别 名 分 析 方 法 是 流 不 敏感 的 ; 下面 我 们 将 要 详细 介 
绍 的 是 流 敏感 的 方法 。 

概括 而 言 ， 区 分 可 能 与 一 定 是 重要 的 ， 因 为 它 告诉 我 们 某 种 属性 是 否 一 定 具有 ， 因此 可 以 
依靠 它 ; 或 者 它 只 是 可 能 具有 ， 因 此 必须 承认 它 但 不 能 依靠 它 。 区 分 流 敏 感性 是 重要 的 ， 因 为 
它 决 定 了 所 考虑 问题 的 计算 的 复杂 性 。 流 不 敏感 问题 的 求解 一 般 通 过 解 子 问题 ， 然 后 合并 这 些 

子 问 题 的 解 而 提供 对 整个 问题 的 解 ， 它 与 控制 流 无 关 。 另 一 方面 ， 流 敏感 问题 需要 沿 着 流 图 的 
控制 流 路 径 来 计算 它们 的 解 。 

别名 的 正式 表述 依赖 于 我 们 涉及 的 是 可 能 信息 还 是 一 定 信息， 以 及 这 种 信息 是 流 敏感 的 还 
是 流 不 敏感 的 。 具 体 情 形 如 下 : 

l. 流 不 敏感 可 能 信息 (flow-insensitive may information): 在 这 种 情况 下 ， 别 名 是 过 程 变 
量 集 上 的 二 元 关系 alias € Var x Var， 我 们 有 x alias y， 当 且 仅 当 x 和 y 可 能 (也许 在 不 同时 刻 ) 引 
用 相同 的 存储 单元 。 这 个 关系 是 对 称 的 和 非 传 递 的 9 。 非 传递 性 是 因为 a 和 2b 在 某 点 可 能 引用 相 
同 的 存储 单元 ， 并 且 b 和 c 在 某 点 也 可 能 引用 辣 一 个 存储 单元 这 一 事实 ， 并 不 能 使 我 们 得 出 有 关 
a 和 c 的 结论 一 一 关系 a alias b 和 b alias c 只 是 在 过 程 的 不 同 点 成 立 而 已 。 

2. 流 不 敏感 一 定 信息 (flow-insensitive must information): 在 这 种 情况 下 ， 别 名 也 是 二 元 
关系 alias € Var x Var， 但 有 不 同 的 含义 。 我 们 有 x alias y， 当 且 仅 当 x 和 y 在 过 程 的 整个 执行 中 一 
定 引 用 相同 的 存储 单元 。 这 个 关系 是 对 称 的 和 传递 的 ， 如 果 a 和 4b 在 过 程 的 整个 执行 中 一 定 引 用 
相同 的 存储 单元 ， 并 且 b 和 c 在 过 程 的 整个 执行 中 一 定 引 用 相同 的 存储 单元 ， 则 显然 a 和 c 也 一 定 
Ec 

3. 流 敏 感 可 能 信息 (flow-sensitive may information): 在 这 种 情况 下 ， 别名 可 以 看 成 是 二 
元 关系 的 集合 ， 过 程 中 的 每 一 个 程序 点 上 ( 即 ， 两 条 指令 之 间 ) 有 这 样 一 个 集合 ， 它 描述 的 是 
在 这 一 点 上 各 个 变量 之 闻 的 关系 。 如 果 将 别名 表示 成 从 一 个 程序 点 和 一 个 变量 至 抽象 存储 位 置 
集合 的 映射 函数 ， 则 容易 更 清晰 地 说 明 其 道理 。 用 公式 来 表述 ， 即 ， 对 于 程序 中 的 某 点 p 和 变 
量 v，Alias(p, v) = SL 意味 着 变量 v 在 点 p 可 能 引用 SL 中 的 任意 单元 。 于 是 ， 如 果 Alias(p, a) 
Alias(p, b) * 9 JH. Alias(p, b) Alias(p, c) * 9 , 则 可 能 有 Alias(p, a)  Alias(p, c) * 8 ， 但 这 不 
是 一 定 有 的 情形 。 同 样 ， 如 果 p1、p2 和 p3 是 不 同 的 程序 点 ，Alias(p1, a) n Alias(p2, a) * 8 , # 
HAlias(p2, a) N Alias(p3, a) * Ø ， 则 类 似 地 可 能 也 有 Alias(p1, a) N Alias(p3, a) * Ø 

4. 流 敏 感 一 定 信息 (flow-sensitive must information): 在 这 种 情况 下 ， 别 名 最 好 表示 为 映射 
程序 点 和 变量 至 抽象 存储 位 置 (不 是 存储 位 置 的 集合 ) 的 函数 。 用 公式 来 表述 ， 即 ， 对 于 某 个 
程序 点 p 和 变量 v，Alias(p, v) = 意味 着 变量 v 在 点 一 定 引用 存储 单元 !。 于 是 ，4lias(p, a)= 
Alias(p, b)3t B.Alias(p, b)=Alias(p, c)， 则 一 定 也 有 Alias(p, a) - Alias(p, c)。 类 似 地 ， 如 果 p1、P2 
和 p3 是 不 同 的 程序 点 ，4lias(pl, a) - Alias(p2, a)， 并 且 Alias(p2, a) — Alias(p3, a)， 则 一 定 也 有 
Alias(p1, a)=Alias(p3, a). Wit, 关于 特定 程序 点 的 流 敏感 一 定 别名 信息 是 变量 之 间 的 传递 关系 ， 
关于 特定 变量 的 流 敏感 一 定 信息 是 程序 点 之 间 的 传递 关系 。 也 容易 看 出 这 两 个 关系 都 是 对 称 的 。 

如 果 将 语言 中 的 指针 考虑 进来 ， 这 种 区 分 将 进一步 复杂 化 ， 例 如 C 语 言 的 情况 。 于 是 任何 





O ”我 们 不 关心 这 个 关系 是 否 是 自 反 的 或 反 自 反 的 ， 因 为 r alias x 没有 意义 。 
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可 能 引用 存储 单元 的 对 象 ， 如 记录 中 的 指针 域 ， 都 有 可 能 与 引用 存储 单元 的 其 他 任何 对 象 发 生 
别名 。 因 此 在 具有 指针 的 语言 中 ， 别 名 是 存储 单元 引用 之 间 的 关系 或 函数 ， 其 中 引用 包括 任何 
以 指针 作为 其 值 的 对 象 ， 而 不 仅仅 是 变量 。 

尽管 产生 别名 的 原因 因 语 言 而 异 ， 但 各 种 语言 的 别名 计算 具有 共性 的 成 分 。 例 如 ， 一 种 语 
言 可 能 允许 两 个 变量 的 存储 位 置 相互 重 玲 ， 或 者 允许 其 中 一 个 是 指向 另 一 个 的 指针 ， 或 者 不 允 
许 有 这 种 情况 ， 但 不 论 这 些 语言 特定 的 规则 如 何 ， 如 果 在 给 定 的 执行 点 ， 变 量 c 指 向 变量 b， 
而 变量 b 又 指向 变量 a， 则 顺 着 从 c 开 始 的 指针 可 以 到 达 a。 因 此 ， 我 们 将 别名 计算 分 为 两 部 分 : 

1. 语言 特有 的 部 分 ， 称 为 别名 收集 器 (alias gatherer)， 我 们 希望 它 由 编译 前 端 提 供 ; 

2. 优化 器 中 的 一 个 单独 部 分 ， 称 为 别名 传播 器 (alias propagator) ， 它 利用 前 端 发 现 的 别名 
关系 执行 数据 流 分 析 ， 组 合 别名 信息 并 将 它们 传递 到 需要 它们 的 程序 点 。 

语言 特有 的 别名 收集 器 可 以 发 现 由 于 下 述 原因 发 生 的 别名 : 

1. 为 两 个 对 象 分 配 了 重生 的 存储 单元 ， — 

2. 数组 、 数 组 片段 或 数组 元 素 的 引用 ; 

3. 指针 引用 ; 

4. 参数 传递 ; 

5. 上 面 各 种 机 制 的 组 合 。 

在 深入 研究 细节 之 前 ， 我 们 先 考虑 可 以 计算 的 别名 信息 的 粒度 以 及 它 的 作用 。 值 得 注意 的 
是 ， 可 能 有 这 种 情况 ， 可 以 证 明 两 个 变量 在 过 程 的 某 段 代码 中 不 会 发 生 别名 ,但 在 过 程 的 其 他 
部 分 ， 它 们 要 么 存在 别名 ， 要 么 不 能 判定 不 存在 别名 。 图 10-4 给 出 了 这 种 情况 的 一 个 例子 。 在 
第 一 段 代 码 中 ，aqa 指 向 a， 而 在 第 二 段 代码 中 ，q 指 向 b。 假 Caan 
若 我 们 要 做 的 是 关于 整个 过 程 的 流 不 敏感 可 能 别名 计算 | { int a, b, c[100], a, i; 
(假定 不 存在 其 他 有 可 能 影响 别名 的 语句 ) ， 则 可 以 简单 地 extern int 4q; 
断定 a 指 向 a 或 b。 这 使 得 我 们 不 能 将 赋值 *a= i 提 到 for 循 
环 之 外 。 另 一 方面 ， 如 果 我 们 在 较 小 的 粒度 范围 来 计算 别 
名 ， 就 可 以 发 现在 该 循环 内 a 不 会 指向 a， 这 使 得 我 们 能 够 a 
用 放置 在 循环 之 后 的 kg= 100， 甚 至 b= 10 来 替代 循环 内 的 qi 
赋值 ra=:i。 尽 管 这 种 程度 的 识别 力 在 许多 情况 下 无 疑 是 有 | Ur V Te irm t 
价值 的 ， 但 它 在 编译 时 间 和 存储 空间 上 超出 了 可 接受 的 范 *q = i; 

围 。 一 种 选择 是 Sun 编 译 器 (421.145) 的 做 法 ， 即 〈 可 , 
选 的 ) 激进 别名 信息 计算 ， 而 另 一 种 是 MIPS 编 译 器 的 做 法 ， | } 
它 简单 地 假定 任何 计算 了 其 地 址 的 变量 都 会 发 生 别 名 。 "— 

因此 ， 我 们 将 为 给 定 实现 选择 合适 粒度 的 工作 留 给 具 COI EAMA ROTANA 
体 编译 器 的 开发 人 员 。 这 里 介绍 一 种 方法 ， 它 能 区 别 过 程 中 的 各 个 程序 点 ; 读者 很 容易 将 它 修 
改 成 为 不 区 别 程序 点 的 方法 。 


10.1 各 种 现实 程序 设计 语言 中 的 别名 


下 面 我 们 考虑 别名 信息 的 形式 ， 这 些 信息 应 当 由 前 端 收集 ， 并 传递 给 别名 传播 器 。 我 们 考 
察 四 种 常用 的 语言 ， 即 Fortran 77、Pascal、C 和 Fortran 90， 并 假定 读者 熟悉 其 中 的 每 一 种 语言 。 
在 探讨 了 这 四 种 语言 的 别名 情况 之 后 ， 我 们 介绍 一 种 别名 收集 方法 ， 这 种 方法 在 某 些 方面 与 
Hewlett-Packard 的 PA-RISC 编 译 器 采用 的 方法 有 些 类 似 ， 但 其 别名 传播 部 分 有 相当 大 的 不 同 。 
Hewlett-Packard 的 PA-RISC 编 译 器 的 传播 方法 是 流 不 事 
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实 上 ， 我 们 使 用 的 传播 方法 采用 了 数据 流 分 析 技 术 ， 即 ， 它 执行 数据 流 分 析 来 判别 别名 。 
10.1.1 Fortran 77 中 的 别名 


ANSI 标 准 Fortran 77 创 建 别名 的 途径 比较 少 ， 并 且 别 名 几乎 都 可 在 编译 时 精确 地 检测 出 来 。 
但 是 ， 我 们 必须 记 住 的 一 点 是 ， 在 这 个 领域 已 经 形成 的 程序 设计 惯例 偶尔 会 违背 Fortran 77 标 
准 ; 而 多 数 编译 器 遵循 的 是 惯例 (至少 在 某 种 程度 上 )， 而 不 完全 是 标准 。 

EQUIVALENCE 语 句 可 以 用 来 指定 两 个 或 多 个 标量 变量 、 数 组 变量 和 /或 数组 变量 的 连续 元 素 
开始 于 相同 的 存储 单元 。 这 些 变量 局 部 于 说 明 它 们 等 价 的 子 程序 ， 除 非 它们 同时 也 出 现在 
COMMON 语 句 中 。 出 现在 COMMON 语 句 中 的 变量 可 以 由 若干 子 程序 访问 。 因 此 ， 只 要 等 价 变量 
不 出 现在 公用 区 中 ， 由 EQUIVALENCE 语 名 创建 的 别名 就 完全 是 局 部 的 ， 并 且 是 静态 可 确定 的 。 

COMMON 语 名 用 相同 的 存储 单元 结合 和 不同 子 程序 中 的 变量 。 对 于 现代 程序 设计 语言 ， 
COMMON 是 与 众 不 同 的 ， 它 用 存储 位 置 结合 变量 ， 而 不 是 用 名 字 。 判 别 公 用 区 变量 的 作用 需 
要 进行 过 程 间 分 析 ， 但 当 一 个 变量 是 公用 变量 时 ， 你 至 少 可 以 局 部 地 判别 出 该 变量 可 能 受到 其 
他 子 程序 的 影响 。 

在 Fortran 77 中 ， 参 数 传递 采用 这 样 一 种 方式 ， 即 ， 只 要 实 参与 有 名 的 存储 单元 〈 例 如 ， 
它 是 一 个 变量 或 数组 元 素 ， 而 不 是 一 个 常数 或 表达 式 ) 结合 ， 被 调用 的 子 程序 就 能 够 通过 对 形 
参 赋值 而 改变 对 应 实 参 的 值 ? 。 标 准 中 并 没有 指明 形 实 结合 机 制 是 传 地 址 还 是 传 值得 结果 ; 两 
种 方法 都 能 正确 地 实现 Fortran 77 的 约定 。 

Fortran 77 标 准 15.9.3.6 节 指出 ， 当 你 传递 同一 个 实 参 给 子 程序 的 两 个 或 多 个 形 参 上 时， 或 者 
当 实 参 是 公用 区 中 的 对 象 时 ， 该 子 程 序 以 及 其 后 的 调用 链 中 的 任何 子 程 序 都 不 能 给 这 个 实 参 赋 
新 的 值 。 如 果 编 译 器 坚持 这 个 规则 ， 则 Fortran 77 中 惟一 的 别名 就 是 由 EQUIVALENCE 和 
COMMON 创 建 的 那些 别名 。 不 幸 的 是 ， 有 些 程序 违背 了 这 一 规则 ， 并 且 编 译 器 有 时 用 它 来 决 
定 一 种 程序 结构 是 否 可 以 用 特殊 的 方式 被 优化 。 于 是 ， 我 们 可 以 认为 还 存在 着 一 个 “实用 的 ” 
Fortran 77， 它 允许 通过 参数 传递 创建 别名 (参见 15.2 节 的 例子 )， 但 这 样 做 可 能 会 处 于 危险 的 
境地 一 -有些 编译 器 可 能 会 持续 地 支持 它 ， 另 一 些 编译 器 则 不 会 一 直 支持 它 ， 甚 至 有 些 编译 器 
可 能 根本 就 不 支持 它 。 

Fortran 77 除 了 公用 区 变量 外 没有 全 局 存储 单元 ， 因 此 如 果 不 将 变量 放 在 公用 区 中 ， 或 者 
不 违背 刚才 叙述 的 参数 传递 约定 ， 就 没有 其 他 途径 能 够 创建 非 局 部 对 象 的 别名 。 

有 若干 Fortran 77 编 译 器 包含 了 Cray 的 扩充 。 这 些 扩充 中 提供 了 一 种 受 限 的 指针 类 型 。 指 
针 变 量 可 以 被 设置 为 指向 一 个 标量 变量 、 数 组 变量 或 绝对 存储 地 址 ( 称 为 该 指针 的 被 指 对 象 )， 
并 且 ， 在 程序 执行 期 间 可 以 改变 指针 的 值 。 但 是 ， 它 不 可 以 指向 另 一 个 指针 ， 另 外 ， 被 指 对 象 
不 能 出 现在 COMMON 或 EQUIVALENCE 语 句 中 ， 也 不 能 是 形 参 。 这 一 扩充 大 大 地 增加 了 产生 
别名 的 可 能 性 ， 因 为 多 个 指针 可 能 指向 同一 个 存储 单元 。 另 一 方面 ，Cray 编 译 器 在 打开 优化 开 
关 编译 时 假定 程序 不 会 有 两 个 指针 指向 相同 的 存储 单元 ， 并 且 更 广泛 地 假定 被 指 对 象 决 不 会 覆 
盖 另 一 个 变量 的 存储 空间 。 显 然 ， 这 给 程序 员 增 加 了 别名 分 析 的 负担 ， 并 且 会 导致 程序 因为 优 
化 开关 打开 与 否 而 产生 不 同 的 结果 。 不 过 这 样 做 的 好 处 是 ， 编 译 器 无 须 对 指针 进行 别名 分 析 就 
可 以 进行 优化 处 理 ， 否 则 就 需要 对 指针 做 最 坏 情 况 的 假设 才能 进行 处 理 。 

10.1.2 ”Pascal 中 的 别名 
在 ANSI 标 准 Pascal 中 创建 别名 有 好 几 种 机 制 ， 包 括 变 体 记 录 、 指 针 、 变 量 参数 、 被 嵌 套 过 
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程 对 非 局 部 变量 的 访问 、 递 归 ， 以 及 函数 的 返回 值 。 

用 户 定义 的 记录 类 型 的 变量 可 以 有 多 种 变 体 ， 而 且 变 体 可 以 是 加 标志 的 或 者 未 加 标志 的 。 
这 里 允许 多 个 未 加 标志 的 变 体 类 似 于 具有 Fortran 77 中 的 等 价 变量 一 一 如 果 一 个 变量 是 未 加 标志 
的 变 体 记录 类 型 ， 则 它 的 变 体 域 可 以 由 两 个 以 上 的 名 字 集 合 访 问 。 

Pascal 的 指针 类 型 变量 限制 为 要 么 具有 值 ni1， 要 么 指向 已 指明 具体 类 型 的 对 象 。 这 种 语 
言 设 有 提供 获得 现存 对 象 地 址 的 手段 ， 故 非 空 指针 只 能 指向 由 过 程 new O 动态 分 配 的 对 象 。 
new (p) 的 参数 p 是 一 个 指针 变量 ， 它 分 配 一 个 其 类 型 是 p 所 指 类 型 的 对 象 ， 并 使 p 指 向 该 对 
象 。 给 定 类 型 的 指针 变量 可 以 对 相同 类 型 的 指针 变量 赋值 ， 因 此 ， 多 个 指针 可 以 指向 同一 个 
对 象 。 这 样 ， 一 个 对 象 在 同一 时 刻 可 通过 若干 个 指针 来 访问 , 但 它 不 能 同时 既 有 自己 的 变量 名 ， 
又 可 通过 指针 来 访问 。 

Pascal 过 程 的 参数 是 值 参数 或 变量 参数 。 被 调用 过 程 不 能 通过 参数 改变 传递 给 值 参 数 的 实 
参 ， 因 而 值 参 数 不 会 创建 别名 。 但 是 ， 变 量 参数 允许 被 调用 过 程 改 变 与 之 相 结合 的 实 参 ， 因 而 
它 会 创建 别名 。 

另外 ，Pascal 人 允许 搓 套 过 程 定 义 ， 内 层 过 程 可 以 访问 外 层 过 程 定 义 的 变量 ， 只 要 它们 是 可 
见 的 ， 即 ， 只 要 在 嵌 套 序列 中 这 两 个 过 程 之 间 没 有 另外 的 过 程 定义 同名 的 变量 。 因 此 ， 例 如 ， 
在 Pascal 程 序 中 一 个 动态 分 配 的 对 象 可 以 作为 变量 参数 既 通 过 局 部 声明 的 指针 也 通过 非 局 部 声 
明 的 指针 来 访问 。 

Pascal 的 过 程 可 以 是 递归 的 ， 因 此 在 内 层 作 用 域 声明 的 变量 对 多 次 递归 调用 而 言 是 可 访问 
的 ， 并 且 一 次 调用 对 应 的 局 部 变量 可 作为 更 深 一 层 调 用 的 变量 参数 。 

最 后 一 点 ，Pascal 过 程 可 以 返回 指针 ， 因 而 可 以 创建 动态 分 配对 象 的 别名 。 

10.1.3 C 中 的 别名 


ANSI 标 准 C 中 有 一 种 创建 静态 别名 的 机 制 ， 即 union 类 型 ， 它 类 似 于 Fortran 77 的 
EQUIVALENCE 结 构 。 一 个 联合 类 型 可 以 声明 若干 个 成 员 ， 每 一 个 成 员 的 存储 空间 是 重生 在 一 
起 的 。 但 是 ，C 的 联合 类 型 不 同 于 Fortran 的 等 价 变量 ， 因 为 它 可 以 通过 指针 来 访问 ， 并 且 可 以 
动态 分 配 空 间 。 

注意 上 面 最 后 一 句 ， 我 们 并 没有 说 “ 它 是 动态 分 配 的 ， 所 以 用 指针 来 访问 ”。C 允 许 动态 分 
配对 象 ， 并 且 引 用 它们 必须 通过 指针 ， 因 为 没有 动态 创建 名 字 的 机 制 。 这 种 对 象 可 由 多 个 指针 
访问 ， 故 指针 可 能 会 相互 别名 。 此 外 ， 在 C 中 允许 用 & 运算 符 取 对 象 的 地 址 ， 不 论 这 个 对 象 是 
静态 分 配 的 、 自 动 分 配 的 还 是 动态 分 配 的 ， 并 且 也 允许 通过 赋予 了 其 地 址 的 指针 来 读 写 它 。 

C 也 允许 对 指针 进行 算术 运算 ， 并 将 它 视 为 等 同 于 数组 索引 一 一 对 指向 数组 元 素 的 指针 增 
加 1 导致 它 指 向 该 数组 的 下 一 个 元 素 。 假 设 我 们 有 代码 段 : 


int a[100], *p; 


则 p 的 两 个 赋值 语句 赋 给 它 的 是 完全 相同 的 值 ， 即 数组 a L1 第 0 个 元 素 的 地 址 ， 其 后 的 两 个 赋值 
语 名 分别 将 1 赋 给 a [1] ，2 赋 给 a[2] 。 即 使 对 于 一 个 长 度 声明 为 x*， 元 素 编号 从 0 到 n -1 的 C 数 


O new() 可 以 有 另外 的 -- 些 参数 ， 这 些 参数 指明 第 一 个 参数 指向 的 记录 类 型 的 做 套 变 体 ; 在 这 种 情况 下 ， 它 
分 配 一 个 指定 变 体 类 型 的 对 象 。 
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组 b[] Rb n] 的 地 址 也 是 合法 的 ， 如 下 面 的 例子 所 示 : ” 


int b[100], p; : 

for (p =b; p< bb [100] ; p++) 

*p = 0; 
但 是 直接 引用 b In] 是 非法 的 。 因 此 ， 指 针 值 表 达 式 可 能 与 数组 元 素 别名 ， 并 且 与 它 别 名 的 这 个 
元 素 可 能 随时 间 而 发 生变 化 。 可 以 想象 得 到 ， 指 针 算术 能 够 不 分 皂 白 地 横扫 存储 器 ， 并 创建 任意 
别名 ， 但 ANSIC 标 准 中 规定 ， 做 这 种 动作 的 代码 的 行为 是 不 确定 的 (参见 ANSI C 标 准 3.3.6 节 )。 

C 也 能 够 通过 参数 传递 和 从 函数 返回 指针 值 而 创建 别名 。 尽 管 C 中 所 有 参数 都 是 传 值 的 ， 
但 由 于 参数 可 以 是 指向 任何 对 象 的 指针 ， 故 它们 也 能 创建 别名 。 另 外 ，C 对 用 两 个 不 同 的 参数 
传递 同一 个 对 象 给 函数 也 没有 限制 ， 例 如 ， 对 下 面 这 个 函数 ， 

f(i,j) 

int *i, *j; 

1 *i = *j + 1; 

} 
与 标准 Fortran 77 不 同 ， 它 可 用 f (ck, &k) 来 调用 。 进 一 步 ， 实 参 也 可 以 指向 全 局 变量 ， 使 得 全 
局 变量 既 可 通过 其 名 字 ， 也 可 通过 指针 来 访问 。 作 为 函数 值 返回 的 指针 可 以 指向 该 函数 和 该 函 
数 的 调用 者 都 可 访问 的 任何 对 象 ， 因 此 也 可 能 与 传递 给 函数 的 指针 实 参 或 任何 具有 全 局 作用 域 
的 对 象 别名 。 

同 Pascal 一 样 ， 递 归 也 会 创建 别名 一 一 在 递归 函数 的 一 次 调用 中 指向 局 部 变量 的 指针 可 以 
传送 给 该 函数 较 深 一 层 的 调用 ， 并 且 静 态 变 量 对 多 层 递归 调用 是 可 访问 的 。 
10.1.4 Fortran 90 中 的 别名 


标准 Fortran 90 包 含 Fortran 77 作 为 子 集 ， 因 此 Fortran 77 创 建 别 名 的 所 有 可 能 性 都 适合 于 
Fortran 90。 此 外 ，Fortran 90 还 有 另外 三 种 机 制 可 以 创建 别名 ， 即 指针 、 递 归 和 内 部 过 程 。 

Fortran 90 指 针 能够 引用 任何 具有 TARGET 属 性 的 对 象 ， 这 种 对 象 可 以 是 任何 动态 分 配 的 对 
象 ， 也 可 以 是 声明 具有 此 属性 的 有 名 对 象 。 简 单 变量 、 数 组 和 数组 片段 都 有 可 能 成 为 被 指 目标 。 

递归 创建 别名 基本 上 与 Pascal 和 C 的 途径 相同 ， 惟 一 不 同 的 是 Fortran 90 的 递归 过 程 必须 用 
RECURSIVE 声 明 。 

内 部 过 程 创 建 别 名 的 方法 也 与 Pascal 相 同一 一 非 局 部 变量 也 可 以 通过 形 实 结合 机 制 来 访问 。 
Fortran 90 标 准 扩充 了 对 Fortran 77 标 准 中 通过 这 种 别名 而 改变 非 局 部 变量 值 的 限制 ， 但 是 ,我 
们 的 看 法 是 ， 在 实际 中 将 很 可 能 仍然 遵守 原来 的 限制 。 


10.2 别名 收集 器 


为 了 描述 在 Fortran 77、Pascal、C、Fortran 90 和 其 他 语言 中 遇 到 的 别名 种 类 ， 我 们 使 用 若 
干 关系 和 几 个 函数 。 这 些 关 系 表 示 语 言 对 象 之 间 可 能 出 现 的 别名 关系 ， 这 些 函 数 将 潜在 的 别名 
对 象 映射 到 抽象 存储 位 置 。 这 些 关 系 和 函数 之 所 以 归 类 于 “潜在 可 能 的 "， 是 因为 我 们 宁愿 过 
于 保守 ， 也 不 能 造成 程序 不 正确 一 一 如 果 在 两 个 对 象 之 间 可 能 存在 别名 关系 ， 而 又 不 能 证 明 这 
个 关系 不 存在 ， 则 我 们 必须 记录 它 可 能 存在 ， 以 免 由 于 遗漏 了 实际 存在 的 别名 而 导致 可 能 用 一 
种 与 程序 原 语义 不 一 致 的 方法 来 优化 程序 。 

在 下 面 的 讨论 中 我 们 将 看 到 ， 区 分 可 能 存在 的 别名 ， 其 精细 程度 可 有 一 系列 的 选择 。 例 如 ， 
如 果 有 一 个 C 或 Pascal 结 构 s， 它 含有 两 个 成 员 s1 和 s2 ， 则 s 的 存储 空间 与 s.s1 和 s . s2 的 存储 
空间 重 倒 ,但 s . sl1 和 s . s2 的 存储 空间 相互 不 重合 。 作 这 种 区 分 是 否 重要 ， 有 一 些 能 指导 我 们 
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进行 选择 的 折 圳 方法 。 做 区 分 一 般 需 要 更 多 的 编译 空间 ， 通 常 也 需要 更 多 的 编译 时 间 ， 并 且 可 
能 产生 更 好 的 代码 。 作 为 编译 器 的 编写 者 ， 我 们 可 以 作出 一 种 选择 并 用 于 所 有 情况 ， 也 可 以 让 
用 户 来 选择 一 种 或 另 一 种 ， 这 通常 是 为 优化 而 做 的 选择 工作 的 一 部 分 。 采 用 这 些 方法 中 的 一 种 


还 是 另 一 种 ， 受 我 们 在 编写 编译 器 时 能 够 投入 的 精力 的 支配 ， 但 也 应 受到 能 对 这 些 方法 产生 不 . 


同 效果 起 决定 性 作用 的 经 验 的 支配 。 

我 们 可 以 选择 区 分 动态 分 配 的 存储 区 域 与 其 他 存储 区 域 ， 也 可 以 不 区 分 。 如 果 区 分 它们 ， 
就 需要 一 种 手段 来 命名 这 种 存储 区 域 ， 并 需要 一 种 用 有 限 空 间 来 表示 整个 别名 信息 的 方法 。 在 
下 面 的 处 理 中 ， 我 们 不 区 分 动态 分 配 的 存储 区 域 ， 而 是 简单 地 将 它们 按 类 型 合 在 一 起 或 全 部 合 
在 一 起 ， 因 为 对 于 我 们 要 处 理 的 这 种 语言 而 言 ， 这 是 适合 的 做 法 。 

另外 ， 如 本 章 一 开始 时 提 到 的， 我 们 可 以 选择 流 敏感 的 或 流 不 敏感 的 别名 分 析 ， 即 ， 是 否 
区 分 在 过 程 个 别 点 的 别名 关系 。 这 里 的 分 析 选 择 区 分 它们 ; 将 我 们 的 分 析 所 收集 的 信息 合并 ， 
使 得 别名 分 析 不 区 分 过 程 中 的 各 个 点 是 较为 容易 的 练习 。 

我 们 从 源 代码 的 各 个 语句 收集 各 项 别名 信息 ， 然 后 将 它们 传递 给 优化 器 中 称 为 别名 传播 器 
(下 一 节 讨 论 ) 的 部 分 ， 别 名 传播 器 将 它们 传播 到 过 程 内 的 所 有 点 。 别 名 收集 器 所 作用 的 过 程 
流 图 由 控制 流 边 连 接 的 各 个 语句 组 成 。 我 们 也 可 以 有 另 一 种 选择 ， 即 使 用 基本 块 并 合并 基本 块 
中 各 个 语句 的 计算 结果 作为 这 个 基本 块 的 结果 。 

令 P 表 示 一 个 程序 点 ， 即 ， 程 序 中 两 条 语句 之 间 的 点 ; 在 流 图 表示 中 ， 程 序 点 P 标 记 一 条 
边 。 程 序 点 entry+ 和 exit- 分 别 是 直接 跟 在 入 口 结 点 
之 后 和 直接 位 于 出 口 结 点 之 前 的 边 。 令 stmt CP) 表示 流 
图 中 直接 先 于 P 的 (惟一 的 ) 语句 。 

图 10-5 中 的 流 图 是 为 说 明 别 名 收集 和 别名 传播 中 用 
到 的 一 些 概 念 而 设计 的 。 它 的 每 一 个 结 点 只 含 一 条 指令 ， 
其 边 用 程序 点 标记 , 即 , entry+,1,2,...,Mexit-. 
语句 stmt(1) 是 receive P(val), 语句 stmt (exit-) 
是 return q. 

令 x 代 表 一 个 标量 变量 、 数 组 、 结 构 或 指针 值 等 ， 
F¢ > mem, (x) 表 示 在 程序 点 P 与 对 象 x 相 连 的 抽象 存储 单 
元 。 令 star(o) 表 示 由 语言 对 象 o 占 据 的 静态 或 动态 分 配 
的 存储 区 域 。 令 anor(t) 表 示 为 类 型 是 夕 的 对 象 分 配 的 
“匿名 ”动态 存储 区 域 ，anon 表 示 过 程 中 所 有 动态 分 配 
的 存储 区 域 。 我 们 假定 所 有 有 类 型 的 匿名 区 域 是 不 同 的 ， 
即 ， 

VD1，ty2， 如 果 ty1 +12, Mlanon(ty1) + anon(ty2) 
对 于 所 有 的 P 和 x，memop (x) 要 么 是 star(x)， 若 x 是 静态 分 
配 或 自动 分 配 的 ; 要 么 是 anon(1y)， 若 x 是 动态 分 配 的 
(其 中 心 是 x 的 类 型 ) ; 要 么 是 anon， 若 x 是 动态 分 配 的 并 
且 不 知道 它 的 类 型 。 我 们 用 ni 表示 空 指针 值 。 

在 图 10-5 的 点 2 处 ， 与 i 相连 的 存储 位 置 是 star (i)， 记 做 mem (1); 而 mems (9) 是 anon(ptr)， 
其 中 ptr 表 示 指 针 类 型 。 另 外 pitrs (p)= ptr, (2). 

令 any 表 示 所 有 可 能 的 存储 单元 集合 ，any(1y) 表 示 类 型 为 ;的 所 有 可 能 的 存储 单元 ; any(ty) 
和 anon(ty) 对 Pascal 是 有 用 的 ， 因 为 Pascal 限 制 每 一 个 指针 只 指向 特定 类 型 的 对 象 。 令 globals 表 





图 10-5 一 个 给 出 别名 概念 的 流 图 例子 
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示 所 有 可 能 的 全 局 可 访问 的 存储 单元 。 对 于 Fortran，globals 包 括 所 有 公用 区 单元 ， 对 于 C， 它 


| 包括 所 有 在 过 程 体外 声明 的 变量 和 具有 extern 属 性 的 变量 。 


我 们 定义 一 组 将 点 P 和 可 存放 值 的 对 象 x( 即 ， 变 量 、 数 组 和 结构 成 员 等 ) 映射 到 抽象 存储 
单元 的 函数 ， 如 下 : 

1. ovr, (x) = 在 程序 点 P 可 能 与 x 重合 的 抽象 存储 单元 集合 。 

2. ptr» (Xx) 二 x 在 程序 点 P 可 能 指向 的 抽象 存储 单元 集合 。 

3. ref, (x) = 在 程序 点 P 通 过 从 x 开始 的 任意 多 层 的 引用 可 到 达 的 抽象 存储 单元 集合 。 注 意 ， 
如 果 我 们 定义 refp (x)= ptrp (x) 并 且 对 所 有 i > 1, 

refp(x) = ptrp(fields(refz ! (x))) 
其 中 ， 若 x 是 指针 ，fields(X%) 是 x; 若是 结构 ，fields(x) 是 x 中 指针 值 成 员 的 集合 ， 则 ， 


refp(x) = U refp(x) 
f=1 
在 许多 情况 下 ， 计 算 ref。 (Xx) 可 能 导致 不 终止 。 任 何 实 际 的 别名 传播 器 都 必须 有 一 种 使 得 这 种 计 
算 能 终止 的 方法 ， 至 少 在 最 坏 的 情况 下 应 能 通过 若干 次 的 迭代 使 计算 结果 变 成 any 或 any(1y) 而 
终止 计算 。 合 适 的 方法 取决 于 要 解决 的 具体 问题 ， 以 及 希望 获得 的 信息 的 详细 程度 。 

4. ref (x) = 通过 从 x 开始 的 任意 多 层 的 引用 可 到 达 的 抽象 存储 单元 集合 ， 与 程序 点 无 关 。 

我 们 还 定义 一 个 谓词 extal (x)， 它 为 真 ， 当 且 仅 当 x 可 能 有 (可 能 是 未 知 的 ) 外 部 于 当前 过 
程 的 别名 。 并 定义 如 下 两 个 映射 过 程 名 到 抽象 存储 单元 的 函数 : 

1. uses, (pn) = 语句 stmt (P) 中 调用 过 程 pn 可 能 使 用 的 抽象 存储 单元 集合 ; 

2. mods, (pn) = 语句 stmt (P) 中 调用 过 程 pn 可 能 修改 的 抽象 存储 单元 集合 。 

现在 考虑 标准 Fortran 77 的 别名 规则 。 用 我 们 的 表示 方法 可 相当 容易 地 将 它们 表示 如 下 : 

1. 如 果 在 一 个 子 程序 中 变量 a 和 4b 是 等 价 的 ， 则 对 于 该 子 程序 内 的 所 有 点 P，ovrs (a) - ovr» (b) 
= (mem, (a)) = (mem, (b)) , 并且 

2. 如 果 在 子 程序 中 说 明 变量 a 是 公用 区 中 的 变量 ， 则 extal(a) 为 真 。 

由 (2) 得 出 ， 对 于 任何 在 stmz(P) 中 出 现 的 对 子 程序 pn 的 调用 ， 如 果 extal(a) 为 真 ， 则 {memp 
(a)} c usesp (pns; 同样 ，{memp (a)) C mods, (pn) 当 且 仅 当 a 是 stmt (P) 中 调用 pn 的 实 参 。 

与 Fortran 77 相 比 ，Cray Fortran 扩 充 、Fortran 90 和 Pascal 都 给 别名 判定 增加 了 复杂 性 ， 但 C 
的 别名 判定 是 最 极端 的 情况 ， 下 面 就 来 讨论 它 。C 的 别名 分 析 需 要 更 多 的 规则 并 且 描 述 起 来 更 
复杂 。 我 们 假定 对 于 别名 分 析 ， 数 组 是 未 知 结构 的 聚合 ， 因 此 假定 指向 数组 元 素 的 指针 与 整个 
数组 别名 。 . 

注意 ， 下 面 的 规则 集合 不 是 C 的 全 部 描述 ， 因 为 对 于 我 们 的 讨论 ， 只 要 给 出 所 需 规则 的 类 
型 样式 ， 以 及 关于 如 何 构建 它们 的 模型 就 足够 了 。 

在 下 面 关 于 C 的 所 有 规则 中 以 及 下 一 节 中 ，P 是 一 个 程序 点 ，P' 是 P 前 面 的 一 个 〈 通 常 是 惟 
一 的 ) 程序 点 。 如 果 P 有 多 个 前 驱 ， 合适 的 扩展 是 如 后 面 10.3 节 所 述 ， 将 所 有 前 驱 的 右 端 合并 
到 一 起 。 

1. 如 果 stmt (P) 将 一 个 空 指针 赋 给 指针 p， 则 

ptr, (p) — 9 | 

这 包括 从 存储 分 配 程序 (如 C 的 库 函 数 mal1loc O ) 的 调用 的 失败 返回 。 

2. 如 果 simt (P) 将 一 个 动态 分 配 的 存储 区 域 赋 给 指针 p， 例 如 ， 通 过 调用 malloc () 或 
calloc(), Wl 
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ptrp (p) ^ anon 
3. 如 果 stmt(P) 是 “p=&a”， 则 
ptrp (p)= (mem, (a)) = (mem, (a)) 
4. 如 果 stmt (P) 是 “pl1=p2”， 其 中 pl 和 p2 是 指针 ， 则 
memenvryt(*p2) 3i P = entry+ 
ptrp(p2) 否则 
5. 如 果 stmt(P) 是 “pl1=p2 一 > p3”， 其 中 p1 和 p2 是 指针 ，p3 是 一 个 指针 成 员 ， 则 
ptrp(p1) = ptrp(p2—»p3) 
6. 如 果 stmt(P) 是 “p= &a[expr] ”， 其 中 p 是 指针 ，a 是 数组 ， 则 
ptrp(p) = ovrp(a) = ovrp(a) = {memp'(a)} 
7. 如 果 stimi(P) 是 “p=p ti”， 其 中 p 是 指针 ，i 是 整数 值 ， 则 
ptrp(p) = ptrp(p) 
8. 如 果 stmt(P) 是 “*p=a”， 则 
ptrp(p) = ptrp(p) 
并 且 如 果 *p 的 值 是 指针 ， 则 
ptrp(*p) = ptrp(a) = ptrp (a) 
9. 如 果 stmt(P) 是 关于 两 个 指针 值 变 量 的 测试 “p==q”， 且 P 标 志 该 测试 的 ?出口 ， 则 
^ birp(p)= ptrp(q) = ptrp(p) A ptrp(q) 
因为 从 Y 出 口 使 得 p 和 gq 指向 相同 的 位 置 。® 
10. 对 于 一 个 其 成 员 是 从 sl 到 sn 的 结构 类 型 sf， 一 个 类 型 为 的 静态 或 自动 对 象 s， 以 及 每 一 个 点 P， 


ovrp(s) = (memp(s)) = Jlmemp(s.si)} 
i=1 


ptrp(p1) = ptrp(p2) = 


而 且 ， 对 于 每 一 个 i, 

[memp(s.si)) = ovrp(s.si) C ovrp(s) 
EXSFTBURj7 i, 

ovrp(s.si) N ovrp(s.sj) = Ø 


11. 对 于 一 个 其 成 员 是 从 s1 到 sn 的 结构 类 型 st， 以 及 一 个 使 得 stmt(P) 分 配 一 个 类 型 为 sf 的 对 
象 s 的 指针 p， 


btrp(p) = {memp(*p)} = | Jimemp(p->si)} 


i=1 
并 且 对 于 每 一 个 i， 
{memp(*p->si)} = ptrp(p-»si) C ptrp(s) 


并 且 对 于 所 有 的 ji 


”在 N 出 口 没有 新 的 信息 是 可 用 的 ， 除 非 我 们 使 用 更 为 复杂 的 、 与 Jones 和 Muchnick [JonM81b] 开 发 的 数据 流 分 
” 析 的 关系 方法 类 似 的 别名 分 析 方法 ， 将 各 个 变量 的 当前 别名 元 组 集合 包含 进来 。 
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ptrp(p-»si) N ptrp( p-»sj) — 0 
和 对 所 有 的 其 他 对 象 x， 

ptrp(p) N {memp(x)} = 9 
因为 分 配给 对 象 的 每 一 个 成 员 的 存储 空间 有 不 同 的 地 址 。 

12. 对 于 一 个 具有 成 员 从 ui 到 un 的 联合 类 型 xt， 一 个 类 型 为 uf 的 静态 或 自动 对 象 4， 以 及 每 
一 个 点 P， 

ovrp(u) = (memp(u)) = (memp(u.ui) ， 其 中 i=1,…, n。 

13. 对 于 一 个 具有 成 员 从 U1 到 un 的 联合 类 型 ut， 以 及 一 个 使 得 stmt (P) 分 配 一 个 类 型 为 ut 的 
对 象 的 指针 p， 

ptrp(p) = {memp(*p)} = {memp(p->ui)} ,其 中 i=1,…,n; 
此 外 ， 对 所 有 其 他 对 象 x， 

ptirp(p)N {memp(x)} — 9 

14. 如 果 stmt (P) 包 含 对 函数 名 的 调用 ， 则 对 所 有 是 如 的 参数 的 指针 pP， 对 全 局 变量 或 由 /0) 
的 返回 值 拭 值 了 的 变量 ， 

ptrp(p) = ref p(p) 
再 次 强调 ， 如 前 面 指出 的 ， 这 些 规则 不 是 C 的 全 部 规则 集合 ， 但 足以 覆盖 该 语言 相当 重要 的 部 
分 ， 以 及 对 别名 分 析 表 现 出 来 的 差异 。 这 里 的 介绍 足以 满足 下 一 节 三 个 例子 的 需要 ， 并 且 读 者 
也 可 以 方便 地 根据 需要 进行 扩充 。 


10.3 别名 传播 器 


现在 ， 我 们 已 有 了 一 种 实质 上 与 语言 无 关 的 描述 程序 中 别名 发 生 原 因 的 方法 ， 于 是 可 以 着 
手 描述 优化 器 中 的 别名 传播 器 了 。 别 名 传播 器 传播 别名 信息 到 每 一 个 语句 ， 并 使 得 它们 能 够 被 
其 他 优化 使 用 。 

我 们 利用 数据 流 分 析 技 术 来 将 别名 信息 从 它们 的 定义 点 传播 到 过 程 中 所 有 可 能 需要 它们 的 
地 方 。 诸 句 的 流 函 数 是 前 一 节 描 述 过 的 ovrp 0 和 ptre 0。 全 局 流 函 数 是 相同 名 字 的 大 写 版 本 。 具 
体 地 说 ， 令 了 表示 过 程 中 程序 点 的 集合 ，O 是 过 程 内 可 见 对 象 的 集合 ，S 是 抽象 存储 单元 集合 。 
Movr: Px O^ 25:0Ptr: P x O25 分别 映 射程 序 点 和 对 象 组 成 的 偶 对 到 过 程 中 给 定点 上 它们 可 
能 与 之 重 和 但 或 指向 的 抽象 存储 单元 集合 一 一 在 Ptr0 的 情形 下 ， 参 数 对 象 都 是 指针 。Ovr0 和 PrrO 
定义 如 下 : 

1. 令 P 是 使 得 stmi(P) 有 单个 前 驱 P 的 程序 点 。 则 

ovr,(x) 如 果 stmt(P) 影 响 x 
ovt | 


Ovr(P',x) 否则 
Jt H. 
_ fptr,(p) 如 果 strax(P) 影 响 p 
Per(P.P) -fo 否则 
2. 令 stmt(P) 有 多 个 前 驱 P1 到 Pn， 并 为 了 简单 起 见 假定 stmt(P) 是 空 语句 。 则 对 任意 对 象 x: 


n 
Ovr(P, x) = U Ovr(Pi, x) 


i=] 
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并 且 对 于 任何 指针 变量 p: 
Ptr(P, p) = Ü Ptr(Pi, p) 
j=l 

3. 令 P 是 其 后 跟随 一 个 测试 (为 简单 起 见 ， 假 定 它 不 调用 任何 函数 或 修改 任何 变量 ) 的 程序 
点 ， 并 且 此 测试 有 多 个 后 继 点 P1 到 Pn。 则 ， 对 于 每 一 个 i 和 任意 对 象 x: 

Ovr(Pi, x) = Ovr(P, x) 
并 且 对 任意 指针 变量 p: 

Ptr(Pi, p)= Ptr(P, p) 
除非 我 们 区 分 该 测试 的 Y 出 口 。 如 果 区 分 ， 如 前 面 情 形 (9) 所 示 ， 我 们 可 以 有 更 精确 有 效 的 信息 。 
作为 Ovr0 和 Ptr0 函 数 的 初始 值 ， 对 于 局 部 对 象 x*， 我 们 用 : 


Ovr(P, x)= oro) i" entry 
对 于 指针 p， 使 用 : 
ø 若 P=entry+ 并 且 p 是 局 部 的 
PIC, p) = any 若 P=entry+ 并 且 p 是 全 局 的 
USC mem, (*p)) 若 P=entry+ 并 且 p 是 参数 
g 其 他 情况 


其 中 star(x) 表 示 为 x 分 配 的 满足 其 局 部 声明 的 存储 区 域 。 
下 面 我 们 通过 三 个 例子 来 讲述 C 语 言 中 的 别名 收集 和 别名 传播 的 方法 。 
第 一 个 例子 取 自 Coutant [Cout86]， 是 关于 图 10-6 中 C 代 码 的 例子 。 我 们 为 它 构造 的 流 图 如 
图 10-7 所 示 。 我 们 通过 构造 各 个 语句 的 流 函 数 来 进行 处 理 。 对 于 pps1 = &ps， 我 们 得 到 
ptr,(pps1)= {mem (ps)} = {memontry+ (pS)} = (star (ps)} 
对 于 pps2 =pps1, 448] 
ptr, (pps2) 2 ptr; (pps1) — ptr; (pps1) 
对 于 *pps2=&s， 得 到 
ptr (pps2) — ptr, (pps2) 
ptr, (*pps2) 7 ptr (&s) = ptr; (&s) - ovr; (s) 
对 于 ps->i =13， 我 们 没有 得 到 方程 。 对 于 func (ps) ， 得 到 
ptrs(ps) -ref; (ps) 
最 后 ， 对 于 arr [1] .i=10， 也 没有 得 到 方程 。 


typedef struct {int i; char c;) struct type; 
Struct type s, *ps, **ppsi, **pps2, arr[100]; 















ppsi = kps; 
pps2 = pps1; 
*pps2 = Es; 
ps->i = 13; 
func(ps); 
arr(il.i = 10; 


图 10-6_Coutant 的 C 别 名 分 析 例 一 
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函数 Ovr0 的 初始 值 是 : 
Ovr(entry*, s) = {star(s)} 
Ovr(entry+, ps) = {star(ps)) 







Ovr(entry*, pps1) = {star(pps1)} 1 


pps2 ~ ppsi 


2 
3 


4 


Ovr(entry*, pps2) = (star(pps2)) 








. Ovr(entry+, arr) = {star(arr)} 
并 且 对 所 有 其 他 的 P，x 和 pP，Ovr(P, x)= 0, Ptr (P, p)= 9. 下 
面 对 P=1, 2, ..., exit-， 我 们 计算 Ovr(P, x) 和 Ptr(P, p) 的 值 ; 
但 对 于 相同 的 参数 对 象 或 指针 ， 只 给 出 其 函数 值 与 前 一 个 程序 点 
不 相同 的 值 一 一 具体 地 ， 我 们 不 给 出 Ovr(P, ORE, AAEM 
与 对 应 的 Ovr(entry+， 9) 值 相同 。 对 于 P=1， 我 们 得 
Ptr(1, pps1) = (star(ps)} 
对 于 P=2， 我 们 得 
Ptr(2, pps2) = {star(ps)} 
对 于 P=3， 我 们 得 
图 10-7 图 10-6 中 C 代 码 的 流 图 











arr[i].i = 10 


5 
exit- 


Ptr(3, ps) = ovra(s) = {star(s)} 
最 后 ， 对 于 P=5， 我 们 得 


Ptr(5, ps) = refs(ps) U U ref (p) = star(s) 
peglobals 


因为 我 们 假定 没有 全 局 可 见 的 对 象 。 图 10-8 给 出 了 转换 这 段 代 码 为 MIR 的 结果 ， 并 注释 出 了 别 
名 分 析 信息 。 我 们 的 分 析 说 明了 几 件 事 。 首 先 ， 我 们 判断 出 了 在 流 图 点 2 处 (或 在 MIR 代 码 中 ， 
在 赋值 pps2 ~pps1 之 后 ) pps1 和 pps2 指 向 ps。 因此 通过 其 中 任意 一 个 指针 的 赋值 (例如 紧 跟 
在 那 条 MIR 指 令 之 后 的 赋值 ， 即 *pps2 一 t1) 将 影响 这 两 个 指针 所 指 的 值 。 其 次 ， 我 们 判断 出 
在 点 3 处 ps 指向 s， 因 此 MHR 代码 中 紧 接 在 这 一 点 之 后 的 赋值 ( 即 ，*Ps ic13) 将 影响 s 的 值 。 
begin Aliases 
ppsi < addr ps star(ps) 
pps2 < ppsi star(ps) 


*pps2 < addr s star(s) 
*ps.i «- 13. 


call func, (ps,typel) star(s) 
t2 «- addr arr 
t3 «€ t2 +4 
.«t3.i <— 10 
end 





图 10-8 图 10-6 中 C 程 序 段 的 带 有 别名 分 析 信息 的 MIR 代 码 
作为 第 二 个 例子 ， 考 虚 图 10-9 所 示 的 C 代 码 和 图 10-10 给 出 的 对 应 流 图 。 有 如 下 两 个 关于 单 


个 语句 的 非 平凡 的 流 国 数 : 
309 pir, (p) = (mem, (i)} = (star (i)} 
310 ptr, (q) = (mem; (3)) = {star (3)} 


对 于 所 有 的 P， 除 Ovr(P, n)= (star (n)}Z5h, EBCOvrOROTÉ ROS s 函数 PtrO 的 定义 是 
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Ptr(entry+, p) =Ø 

Ptr(entry+, q) =Ø 

Ptr(1, p) = ptri(p) 

Ptr(3, q) = ptr3(q) 
并 且 对 其 他 所 有 程序 点 P 和 指针 x 的 偶 对 ，Pir(P, x)= Ptr (P', x)。 用 替代 法 不 难 计算 出 上 述 方程 
的 解 为 : 


Ptr(entry+, p) =Ø Ptr(entry*,q) =Ø 
Ptr(1, p) = (star(i)) Ptr(1, q) =ø 
Ptr(2, p) = {star(i)} Ptr(2, q) =ø 
Ptr(3, p) = [star(i)) Ptr(3, q) = {star(j)} 
Ptr(4, p) = (star(i)} Ptr(4, q) = {star(j)} 
Ptr(5, p) = {star(i)} Ptr(5, q) = {star(j)} 
Ptr(exit-,p) = {star(i)} Ptr(exit-,q) = {star(j)} 


这 段 程序 只 通过 指针 取 值 并 不 通过 指针 存储 值 ， 这 一 事实 告诉 我 们 这 个 例 程 创建 的 别名 不 会 产 
生 问 题 。 事 实 上 ， 它 告诉 我 们 可 以 用 k=i+j 赫 代 k=*p+*q， 并 完全 删除 对 p 和 q 的 赋值 。 


int arith(n) 
int n; 

{ int i, j, k, *p, *q; 
p £i; 


i n + 1; 
kj; 
n * 2; 
*p + *q; 
return k; 





图 10-9 C 别 名 分 析 例 二 图 10-10 图 10-9 中 C 代 码 的 流 图 
作为 第 三 个 例子 ， 考 虑 图 10-11 所 示 的 C 代 码 和 图 10-12 所 示 与 它 对 应 的 流 图 。 语 句 q=p 的 
流 函 数 是 
ptr, (q) 7 ptri (Pp)=memontry Cp) 
对 于 g==NIL， 关 于 Y 出 口 ， 我 们 得 
ptrs (a) = (nil) 
对 于 q=q->np， 流 函数 是 
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n ptrs(q) 7 ptrs(a- »np) - ptr, (a- »np) 
312 这 个 过 程 没 有 非 平凡 的 OvrO 函 数值 ， 所 以 我 们 完全 省 略 了 它 的 这 些 值 。 对 于 函数 PtrO， 
它 的 方程 如 下 所 示 : | 
Ptr(entry*, p) = {mementry+(*p)} 
Ptr(1, q) = ptr,(q) 
Ptr(2, q) = Ptr(1, q) 
Ptr(3, q) = Ptr(2, q) U Ptr(4, q) 
Ptr(4, q) = Ptr(2, q) U Ptr(5, q) 
Ptr(5, q) = ptrg(q) 
Ptr(6,q) — — ptre(a) 


Ptr(exit-,q) = Ptr(3, q) U Pér(6, q) 
为 了 解 这 些 方程 ， 我 们 进行 一 系列 的 替换 ， 得 到 : 


Ptr(entry*, p) = (mementry+(*p)} 


Ptr(1,q) = (mementry«(*p)) 

Ptr(2,q) = {mementry+(*p)} 

Ptr(3, q) = {mementry+(*p)} U Ptr(4, q) 
Ptr(4, q) = {mementry+(*p)} U Pér(5, q) 
Ptr(5, q) = ptr. (q-?np) = refa(q) 

Ptr(6, q) = {nil} 


Ptr(exit-,q) = (ril, mementry+(*p)} U Ptr(4, q) 


typedef struct {node *np; int elt;) node; 


node *find(p,m) 
node *p; 
int m; 






( node *q; 
for (q = p; q == NIL; q = q->np) 





if (q-»elt == m) 
return q; 
return NIL; 
} 
图 10-11 C 别 名 分 析 例 三 图 10-12 图 10-11 中 C 代 码 的 流 图 
另 一 轮 替换 遗留 Ptr(entry+, p). Pri, a). Ptr2, q)、Ptr(5, 和 Ptr(6, q) 未 变 。 其 他 的 则 变 为 : 
Ptr(3,q) = {mementry+(*p)} U refa(q) 
Pir(4,q) — — {mementry+(*p)} Urefa(q) 


Ptr(exit-, q) = (nil, mementry+(*p)} U refa(q) 


并 且 易 看 出 ref; (@) 的 值 是 ref.s,,，(p)。 因 此 ， 在 例 程 fina O 的 和 人口 点 对 于 任何 可 通过 p 访 问 的 
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值 而 言 ，q 可 能 是 其 别名 ， 但 在 其 他 情况 下 它 不 是 别名 。 注 意 ， 这 只 能 包括 在 该 例 程 之 外 〈 静 
态 、 自 动 或 动态 ) 分 配 的 值 。 


10.4 小 结 


这 一 章 我 们 集中 讨论 了 别名 分 析 ， 即 ， 确 定 哪 些 存储 位 置 可 能 〈 或 肯定 会 ) 通过 两 种 或 多 
种 途径 被 访问 。 别 名 分 析 对 于 那 种 较 贪心 的 优化 是 必需 的 ， 因 为 在 优化 过 程 中 必须 确信 我 们 已 
经 考虑 到 了 存储 单元 或 变量 的 值 可 能 (或 一 定 ) 被 使 用 或 被 改变 的 所 有 途径 。 例如， 一 个 C 变 
量 可 能 已 被 取 了 地 址 ， 并 且 既 通过 其 名 字 ， 也 通过 一 个 赋予 了 其 地 址 的 指针 对 它 进行 读 写 。 如 
果 我 们 不 能 考虑 到 这 种 可 能 性 ， 在 进行 优化 时 ， 或 在 确定 是 否 可 以 应 用 某 种 优化 时 ， 就 有 可 能 
出 错 。 我 们 的 错误 可 能 是 改变 了 程序 的 原 义 ， 或 者 是 导致 没有 执行 本 来 可 以 应 用 的 优化 。 尽 管 
这 两 种 错误 都 是 不 希望 的 ， 但 前 者 是 灾难 性 的 ， 而 后 者 只 是 遗憾 。 因 此 ， 当 我 们 不 能 推断 出 更 
明确 的 别名 信息 时 ， 则 无 论 如 何 宁可 保守 一 些 。 

从 这 一 章 可 学 到 下 面 5 点 基本 知识 : 

1. 虽然 高 质量 的 别名 分 析 是 进行 正确 优化 和 激进 优化 所 必须 的 ， 但 有 许多 程序 只 需要 相当 
少量 的 信息 。 尽 管 C 程 序 可 以 有 任意 复杂 的 别名 ， 但 对 大 多 数 C 程 序 而 言 ， 只 需 假定 只 有 那些 
取 了 其 地 址 的 变量 才 会 发 生 别 名 , 并 且 任 何 指针 值 变量 可 能 指向 它们 就 是 够 了 。 在 多 数 情况 下 ， 
这 种 假定 对 优化 的 限制 最 小 。 

2. 我 们 区 分 了 可 能 别名 信息 和 一 定 别 名 信息 ， 因 为 对 不 同 的 情况 ， 这 两 者 都 有 其 重要 性 。 
例如 ， 如 果 到 过 程 中 某 一 点 的 每 一 条 路 径 都 合 有 将 变量 x 的 地 址 赋 给 变量 p 的 赋值 ， 则 “P 指 向 
x” 就 是 过 程 中 那 一 点 的 一 定 别名 信息 。 另 一 方面 ， 如 果 过 程 包 含 的 路 径 中 有 一 条 路 径 含 有 将 
变量 x 的 地 址 赋 给 变量 gq 的 赋值 ， 而 另 一 条 路 径 将 变量 y 的 地 址 赋 给 变量 9g， 则 “qa 可 能 指向 x 或 
y” 是 可 能 别名 信息 。 在 前 一 种 情况 下 ， 我 们 可 以 安全 地 确信 通过 指针 p 获 得 的 值 与 x 的 值 是 相 
同 的 ， 因 此 ， 在 那个 程序 点 之 后 用 x 替代 *p 不 会 产生 错误 。 对 于 后 一 种 情况 ， 显 然 不 能 这 样 做 ， 
但 是 ， 如 果 我 们 知道 x>0 且 y<0， 就 可 推断 出 *q<*0。 

3. 我 们 也 区 分 了 流 敏感 和 流 不 敏感 别名 信息 。 流 不 敏感 信息 与 过 程 中 过 到 的 控制 流 无 关 ， 而 流 
敏感 信息 要 考虑 控制 流 。 虽然 这 种 区 分 一 般 会 依照 我 们 的 选择 而 产生 不 同 的 信息 , 但 它 也 是 重要 的 ， 
因为 它 决定 了 所 考虑 问题 的 计算 的 复杂 性 。 流 不 敏感 问题 一 般 通过 解 子 问题 ， 然 后 组 合 它们 的 解 来 
提供 对 整个 问题 的 解 。 另 一 方面 ， 流 敏感 问题 需要 我 们 通过 流 图 的 控制 流 路 径 来 计算 其 解 。 

4. 虽然 创建 别名 的 方式 随 语言 不 同 而 变化 ， 但 别名 计算 存在 共同 的 成 分 。 因 此 ， 我 们 将 别 
名 计算 分 为 两 个 部 分 : 一 是 语言 特有 的 部 分 一 一 称 为 别名 收集 器 ， 我 们 希望 它 包 含 在 编译 前 端 
内 ; 二 是 公共 部 分 一 称 为 别名 传播 器 ， 它 利用 前 端 提供 的 别名 关系 执行 数据 流 分 析 ， 在 过 程 
的 汇合 点 组 合 别名 信息 ， 并 将 这 些 信息 传播 到 需要 它们 的 地 方 。 

5. 各 种 问题 所 需 的 别名 分 析 信息 的 粒度 和 我 们 愿意 承受 的 计算 时 间 确 定 了 在 上 面 所 讨论 的 
这 些 方法 中 ， 实 际 能 够 让 我 们 选择 的 范围 。 

我 们 描述 了 一 种 计算 流 敏感 可 能 信息 的 方法 ， 以 便 编译 器 的 编写 者 可 以 对 它 做 最 少 代价 的 
修改 来 产生 所 需要 的 信息 ， 并 且 ， 我 们 让 各 个 程序 员 自己 为 给 定 实现 选择 合适 的 粒度 。 


10.5 进一步 阅读 


MIPS 编 译 器 采用 的 别名 分 析 最 低 限 度 方法 是 由 Chow 和 Wu 在 [ChoW92] 中 介绍 给 读者 的 。 
[Cout86] 中 讨论 了 Hewlett-Packard PA-RISC 编 译 器 采用 的 别名 收集 方法 。 
Fortran 77、 Fortran 77 Cray 扩充 以 及 Fortran 90 的 标准 描述 见 [Fort78]、[CF7790] 和 [Fort92]。 
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ANSI 标 准 Pascal 的 描述 见 [IEEE83],ANSI 标 准 C 的 描述 见 [ANSI89]。 
[JonM81b] 讨 论 了 Jones 和 Muchnick 的 数据 流 分 析 关 系 方法 。 
10.6 练习 
10.1 给 出 流 敏感 与 流 不 敏感 ， 以 及 可 能 与 一 定 程序 信息 的 4 个 例子 ， 即 填充 下 表 : 





10.2 构造 访问 一 个 全 局 变量 的 C 例 子 ， 访问 方 式 包括 用 名 字 访 问 、 作 为 参数 被 传递 和 
通过 指针 访问 。 — 
ADV 10.3 用 公式 描述 10.2 节 给 出 的 流 敏 感 可 能 C 别 名 分 析 规则 。 
RSCH 10.4 用 公式 描述 10.2 节 给 出 的 流 敏感 一 定 C 别 名 分 析 规 则 。 
10.5 (a) 用 公式 给 出 图 10-13 中 C 过 程 的 重合 和 指针 别名 分 析 方 程 ， (b) 解 这 些 方程 。 


typedef struct node {struct node *np; int nin, max) node; 
typedef struct node rangelist; i 
typedef union irval {int ival; float rval} irval; 
int inbounds(p,m,r,ir,s) 

rangelist *p; 

int m; 

float r; 

irval ir; 

node s[10]; 
( node *q; 
int k; 
for (q = p; q == 0; q = q->np) { 

if (q->max >= m &£ q->min <= m) { 

return 1; 





















} 
} 
for (q = &s[0], k == 0; q >= &s[10]; q++, k++) { 
if (q == &p[k]) { 
return k; 










} 


if (ir.ival == m || ir.rval == r) { 
return 0; 
} 


return -1; 


图 10-13 用 于 别名 分 析 的 C 过 程 之 例 


RSCH 10.6 考虑 解 递归 指针 别名 分 析 方程 的 各 种 可 选 方法 。 这 些 方法 可 能 包含 由 指针 、 指 针 
所 指 对 象 、 指 明 关系 的 边 所 组 成 的 图 ， 并 包括 将 图 控制 在 适当 大 小 的 某 种 机 制 和 
关系 的 描述 ， 如 路 径 字 符 串 ， 等 等 。 每 一 种 给 出 一 个 例子 。 

10.7 (a) 用 公式 描述 用 于 C 别 名 分 析 的 处 理 已 知 大 小 〈 比 如 10 个 元 素 ) 数组 的 规则 ; (b) 
给 出 一 个 使 用 它们 的 例子 。 . 
10.8 如 果 将 别名 信息 与 流 图 的 结 点 相连 而 不 是 与 边 相 连 ， 获 得 的 信息 有 何不 同 ? 





第 11 章 优化 简介 


我 们 已 经 讨论 了 确定 过 程 中 的 控制 流 、 数 据 流 、 依 赖 关 系 和 别名 分 析 的 机 制 ， 下 面 可 以 考 
虑 有 关 改 善 编译 器 生成 的 目标 代码 性 能 的 优化 了 。 

首先 ， 我 们 必须 指出 “最 优 ”( optimization ) 一 词 是 用 词 不 当 的 一 一 对 程序 进行 优化 ,无 
论 用 什么 方法 来 衡量 ， 产 生性 能 最 优 的 目标 代码 的 情况 都 极其 少见 。 更 合适 的 说 法 是 ， 优 化 通 
常 能 改善 代码 的 性 能 ， 有 时 这 种 改善 是 充分 的 ， 但 也 完全 有 可 能 对 于 一 个 给 定 程序 的 某 些 〈 甚 
至 所 有 ) 输入 ， 优 化 没有 改善 性 能 ， 甚 至 出 现 性 能 降低 的 情况 。 事 实 上 ， 像 计算 机 科学 中 众多 
有 趣 的 问题 一 样 ， 一 个 具体 的 优化 是 否 改善 (或 至 少 不 降 低 ) 性 能 ， 在 多 数 情 况 下 是 不 可 判定 
. 的。 有些 简单 的 优化 ， 如 代数 化 简 (参见 12.3 节 )， 只 在 极 少 数 情 况 下 例如， 由 于 改变 了 代 
码 在 高 速 缓 存 中 的 位 置 而 导致 增加 了 高 速 缓 存 人 缺失 ) 才 会 使 程序 变 慢 ; 但 是 它 的 优化 效果 也 可 
能 并 没有 使 程序 的 执行 性 能 得 到 改善 ， 其 原因 可 能 是 被 简化 的 这 段 代码 根本 就 没有 被 执行 。 

在 进行 优化 时 ， 通 常 我 们 期 望 尽 可 能 地 改善 代码 ， 但 决 不 以 损失 正确 性 为 代价 。 我 们 用 术 
语 安全 的 或 保守 的 来 描述 后 一 个 目的 , 即 , 保证 优化 不 会 将 一 个 正确 的 程序 变 成 不 正确 的 程序 。 
例如 ， 假 设 通 过 数据 流 分 析 我 们 可 以 证 明 ， 过 程 中 while 循 环 内 的 一 个 语句 x: =y/z， 在 该 过 
程 的 任何 特定 执行 期 间 它 总 是 生成 相同 的 值 ( 即 它 是 一 个 循环 不 变量 ) ， 则 一 般 希 望 将 它 提 到 
循环 之 外 。 但 是 如 果 我 们 不 能 保证 这 个 语句 决 不 会 产生 除 以 零 的 异常 ,我 们 就 一 定 不 能 移动 它 ， 
除非 我 们 能 够 证 明 这 个 循环 总 是 至 少 会 执行 一 次 。 否 则 ， 在 原来 程序 中 可 能 并 不 会 产生 的 异常 
就 有 可 能 会 在 “优化 ”后 的 程序 中 产生 。 一 种 可 选 的 做 法 是 ， 我 们 可 以 在 循环 之 外 通过 计算 进 
入 循环 的 条 件 来 控制 y/z 的 计算 。 

上 一 段 讨 论 的 例子 也 可 以 说 明 ， 一 种 优化 可 能 总 是 能 提高 代码 的 执行 速度 ， 可 能 只 在 某 些 时 
候 改善 它 ， 也 可 能 反而 总 是 使 它 变 慢 。 假 设 我 们 可 以 证 明 z 决 不 会 是 零 ， 如 果 这 个 while 循 环 对 
某 些 输入 至 少 执行 两 次 以 上 ， 而 对 其 他 输入 根本 不 执行 ， 则 当 循 环 被 执行 时 ， 它 可 改善 代码 ; 当 
循环 不 执行 时 ， 它 会 使 代码 变 慢 。 如 果 无 论 输入 是 什么 此 循环 都 决 不 会 执行 ， 则 这 个 “优化 ”总 
是 使 得 代码 变 慢 。 当 然 ， 这 里 的 讨论 假定 其 他 优化 〈 如 指令 调度 ) 没有 进一步 重 排 代 码 。 

不 仅 是 优化 对 程序 性 能 的 作用 是 不 可 判定 的 ， 一 种 优化 是 否 可 应 用 于 一 个 具体 的 过 程 也 是 
不 可 判定 的 。 尽 管 进行 适当 的 控制 流 和 数据 流 分 析 可 以 确定 优化 能 够 施加 的 地 方 以 及 优化 的 安 
全 性 ， 但 是 它 不 能 判别 所 有 可 能 的 情况 。 

一 般 地 ， 对 一 个 过 程 应 当 实施 哪些 优化 〈 假 设 我 们 知道 可 施加 这 些 优化 并 且 优化 是 安全 的 ) 
有 两 种 判别 标准 ， 即 速度 与 空间 。 哪 一 个 更 重要 取决 于 被 优化 的 程序 所 运行 的 计算 机 系统 的 特征 。 
如 果 系 统 的 主 存 和 /或 高 速 缓存 较 小 9 ， 使 代码 的 空间 最 小 就 可 能 非常 重要 。 不 过 ， 在 多 数 情况 下 ， 
使 速度 尽 可 能 快 比 使 空间 尽 可 能 小 要 更 重要 。 对 于 许多 优化 ， 加 快速 度 的 同时 也 会 减少 空间 。 另 一 
方面 ， 对 于 另外 一 些 优 化 ， 如 循环 体 展开 (参见 17.4.3 节 )， 在 加 快速 度 的 同时 却 会 增加 空间 ， 这 可 
能 损害 高 速 缓存 的 性 能 ， 也 可 能 损害 所 有 的 性 能 。 其 他 一 些 优化 ， 如 尾 融 合 (参见 18.8 节 )， 总 是 
以 四 性 时 间 来 减少 空间 。 当 我 们 讨论 每 一 种 优化 时 ， 重 要 的 一 点 是 应 考虑 它 对 时 间 和 空间 的 影响 。 


O 此 处 的 “小 ” 仅 相对 所 考虑 的 程序 而 言 。 那 种 只 占 一 兆 字 节 的 程序 对 大 多 数 系统 都 不 会 成 问题 ， 但 对 嵌入 式 
系统 可 能 就 太 大 了 。 





确实 有 一 些 优化 比 其 他 优化 更 重要 。 例 如 ， 循 环 优化 、 全 局 寄存 器 分 配 和 指令 调度 几乎 总 
是 实现 高 性 能 的 关键 。 另 一 方面 ， 对 于 具体 的 程序 而 言 ， 哪 些 优化 是 最 重要 的 ， 则 随 程序 的 结 
构 而 异 。 例 如 ， 对 于 面向 对 象 语言 (这 种 语言 鼓励 使 用 很 多 小 过 程 ) 书写 的 程序 ， 过 程 集成 
( 它 通 过 复制 过 程 体 来 替代 对 过 程 的 调用 ) 和 时 函数 优化 〈 官 对 不 调用 其 他 过 程 的 过 程 产生 更 
为 有 效 的 代码 ) 可 能 是 必需 的 。 对 于 高 度 递归 的 程序 ， 尾 调用 优化 可 能 就 是 非常 值得 的 ， 这 种 
优化 用 转移 替代 调用 ， 从 而 简化 过 程 调用 的 和 人口 和 出 口 指令 序列 。 对 于 自我 递归 的 例 程 ， 一 种 
特殊 的 尾 调用 优化 〈 称 为 尾 递归 删除 ) 可 以 将 递归 转换 成 循环 ， 这 样 做 既 消 除了 调用 的 开销 ， 
而 且 还 使 得 在 原来 不 能 应 用 循环 优化 的 地 方 可 以 应 用 循环 优化 。 确 实 也 有 一 些 特定 的 优化 对 某 
些 体系 结构 比 对 其 他 体系 结构 更 重要 。 例 如 ， 全 局 寄存 器 分 配对 于 那 种 提供 大 量 寄存 器 的 
RISC 机 器 而 言 非常 重要 ， 但 对 于 只 有 几 个 寄存 器 的 机 器 而 言 其 重要 性 就 不 是 那么 大 。 

另 一 方面 ， 某 些 优化 得 到 的 执行 时 的 性 能 改善 可 能 比 不 上 编译 时 耗费 的 时 间 。 那 种 相对 获 
得 的 性 能 而 言 代价 太 大 ， 并 且 只 对 程序 中 几乎 不 执行 的 部 分 起 作用 的 优化 一 般 不 值得 去 做 。 大 
部 分 程序 的 执行 时 间 都 花 在 循环 上 ， 因 此 循环 通常 是 最 值得 优化 的 对 象 。 在 优化 一 个 程序 之 前 
先 运行 它 ， 并 对 它 进行 运行 时 的 剖面 分 析 (profiling)， 以 找 出 运行 时 间 最 多 的 部 分 ， 然 后 利用 
得 到 的 信息 来 指导 优化 ， 这 种 方法 一 般 是 非常 值得 的 。 但 在 这 样 做 时 需 注意 ， 剖 面 分 析 中 作为 
程序 输入 的 数据 必须 有 足够 广泛 的 代表 性 才能 真实 地 表现 程序 在 实际 中 的 运行 情况 。 如 果 一 个 
程序 对 于 奇数 输入 执行 一 条 路 径 ， 对 于 偶数 输入 执行 完全 不 同 的 另 一 条 路 径 ， 而 收集 的 所 有 训 
面 分 析 数 据 都 是 关于 奇数 输入 的 ， 则 剖面 分 析 会 建议 偶数 输入 路 径 不 值得 优化 关注 ， 这 可 能 与 
程序 在 实际 中 使 用 的 真实 情况 完全 相反 。 


11.1 第 12~18 章 讨论 的 全 局 优化 


从 下 一 章 开始 我 们 介绍 应 用 于 单个 过 程 的 一 系列 的 优化 。 它 们 之 中 的 每 一 种 优化 ， 除 过 程 
集成 和 内 联 扩 展 之 外 ， 纯 粹 是 过 程 内 的 ， 即 ， 它 每 次 只 在 单一 过 程 体内 进行 优化 。 过 程 集成 和 
内 联 扩 展 也 是 过 程 内 的 ， 尽 管 它们 都 涉及 到 替代 调用 过 程 的 过 程 体 ， 但 它们 每 次 都 是 在 单个 过 
程 的 上 下 文 内 进行 的 ， 而 与 过 程 间 的 代价 、 好 处 或 效率 分 析 等 无 关 。 

前 期 优化 (第 12 章 ) 是 那些 通常 在 编译 过 程 的 较 早 阶段 进行 的 优化 ， 或 对 于 所 有 优化 都 是 针 
对 低级 代码 进行 的 编译 器 而 言 ， 是 在 优化 处 理 的 较 早 阶段 进行 的 优化 。 它 们 包括 聚合 量 的 标量 替 
代 、 局 部 和 全 局 值 编号 、 局 部 和 全 局 复写 传播 ， 以 及 (全 局 ) 稀有 条 件 常数 传播 。 除 聚合 量 的 标 
量 替代 优化 不 需要 进行 数据 流 分 析 外 ， 其 他 优化 都 需要 进行 数据 流 分 析 。 全 局 值 编号 和 稀有 条 件 
常数 传播 与 其 他 优化 不 同 ， 它 们 针对 的 是 SSA 形 式 的 代码 ， 而 其 他 优化 可 以 应 用 于 几乎 任何 中 级 
或 低级 中 间 代 码 。 

第 12 章 也 涉及 了 常数 折合 、 代 数 化 简 和 重 结合 ， 它 们 都 不 需要 进行 数据 流 分 析 ， 并 且 最 好 
作为 可 以 在 优化 的 任何 阶段 根据 需要 来 调用 的 子 程序 。 在 优化 过 程 的 较 早 阶段 执行 这 些 优化 可 
以 获得 较 大 的 好 处 ， 但 它们 在 优化 的 其 他 阶段 也 几乎 总 是 有 用 的 。 

TAMRE (EBE) 涉及 4 种 优化 ， 它 们 减少 一 个 计算 在 某 条 路 径 上 或 所 有 路 径 上 被 执行 的 
次 数 。 这 些 优化 是 局 部 和 全 局 公共 子 表达 式 删 除 、 循 环 不 变 代码 外 提 、 部 分 元 余 删 除 和 代码 提升 。 
这 4 种 优化 都 需要 进行 数据 流 分 析 ， 并 且 都 可 应 用 于 中 级 和 低级 中 间 代码 。 这 一 章 也 涉及 了 向 前 
替换 ， 它 是 公共 子 表达 式 删除 的 逆转 。 有 时 为 了 对 一 个 程序 施加 其 他 优化 ， 必 须 先 做 向 前 替换 。 

第 14 章 涉及 的 循环 优化 包括 强 作 前 弱 、 删 除 归纳 变量 、 线 性 函数 测试 替换 及 删除 不 必要 的 
边界 检查 。 只 有 删除 归纳 变量 和 线性 函数 测试 替换 需要 进行 数据 流 分 析 ， 所 有 这 些 优化 都 可 在 
中 级 和 低级 中 间 代 码 上 进行 。 





f£ fL B 4 231 


过 程 优化 (第 15 章 ) 包括 尾 调用 优化 、 尾 递归 删除 、 过 程 集成 、 内 联 扩展 、 叶 例 程 优化 以 
及 收缩 包装 。 只 有 收缩 包装 需要 进行 数据 流 分 析 。 仅 当 在 一 次 编译 时 能 获得 要 编译 的 整个 程序 
的 情况 下 ， 编 译 才能 从 尾 调用 优化 和 过 程 集成 、 内 联 扩展 获得 好 处 。 有 些 优化 最 好 在 中 级 中 间 
代码 上 进行 ， 而 另 一 些 优化 则 在 低级 中 间 代 码 上 进行 时 有 更 好 的 效率 。 

寄存 器 分 配 在 第 16 章 讨论 ， 它 是 充分 发 挥 处 理 机 寄存 器 效率 的 关键 。 它 的 一 种 最 有 效 的 形 
式 ， 即 图 着 色 寄存 器 分 配 ， 需 要 进行 数据 流 分 析 ， 但 采用 所 谓 的 冲突 图 (参见 16.3.4 节 ) 来 纺 
码 ， 这 是 一 种 与 本 书 遇 到 的 其 他 数据 流 分 析 不 同 的 形式 。 此 外 ， 重 要 的 是 应 在 低级 或 中 级 代码 
上 应 用 这 种 优化 ， 以 便 从 它 获 得 最 大 好 处 。 这 一 章 也 讨论 了 其 他 几 种 寄存 器 分 配方 法 。 

第 17 章 介绍 指令 调度 。 它 主要 讨论 为 利用 低层 硬件 并 行 性 而 对 指令 进行 的 重 排 ， 这 包括 覆 
盖 分 支 延 迟 槽 、 基 本 块 内 和 跨 基 本 块 的 调度 、 软 流水 〈 以 及 几 种 附带 的 使 其 效率 更 高 的 技术 ， 
如 循环 展开 、 变 量 扩张 、 寄 存 器 重 命名 和 层次 归 约 )。 这 一 章 也 论 及 了 踪迹 调度 ; 一 种 对 共享 
存储 多 处 理 机 最 有 效 的 调度 方法 ， 以 及 渗透 调度 ; 一 种 将 调度 作为 整个 优化 的 组 织 者 ， 而 将 本 
书 讨论 的 其 他 技术 看 做 是 其 末端 工具 的 方法 。 这 两 种 方法 都 适合 于 超标 量 处 理 机 。 与 寄存 器 分 
配 一 样 ， 指 令 调 度 也 是 实现 高 性 能 的 关键 。 

最 后 ,控制 流 和 低级 优化 (第 18 章 ) 介绍 了 在 编译 处 理 接近 结束 时 应 用 的 若干 种 优化 技术 。 
这 些 优化 是 不 可 到 达 代码 删除 、 伸 直 化 、i 化 简 、 循 环 化 简 、 畦 环 倒置 、 无 开关 化 、 分 支 优化 、 
尾 融 合 、 用 条 件 传 送 指令 替代 条 件 分 支 、 死 代码 删除 、 分 支 预测 、 机 器 方言 及 指令 归并 。 其 中 
有 些 优化 ， 如 死 代 码 删 除 ， 可 在 优化 处 理 的 不 同 阶段 多 次 进行 ， 并 总 能 得 到 好 处 。 


11.2 ” 流 敏感 性 和 可 能 与 一 定 信 息 


同 别名 分 析 一 样 ， 区 分 两 类 数据 流 信息 ， 即 可 能 和 一 定 概要 信息 ， 以 及 流 敏感 与 流 不 敏感 
问题 是 有 帮助 的 。 

可 能 与 一 定 信息 的 分 类 区 分 流 图 中 可 能 发 生 在 某 条 路 径 上 的 情况 与 流 图 中 所 有 路 径 上 一 定 
发 生 的 情况 。 例 如 ， 如 果 一 个 过 程 在 开始 处 有 一 个 对 变量 a 的 赋值 ， 其 后 跟 有 一 个 i£， 这 个 if 
的 一 条 分 支 存在 一 个 对 b 的 赋值 ， 另 一 条 分 支 存在 一 个 对 c 的 赋值 ， 则 ， 对 a 的 赋值 是 一 定 信息 ， 
而 对 b 和 c 的 赋值 是 可 能 信息 。 

流 孝感 与 流 不 孝感 的 区 分 用 于 解决 一 个 问题 是 否 需要 进行 数据 流 分 析 。 流 不 敏感 问题 是 其 
解 与 所 遇 到 的 控制 流 类 型 无 关 的 问题 。 任 何 需 要 进行 数据 流 分 析 才 能 判别 是 否 能 应 用 它 的 优化 
都 是 流 敏感 的 ， 而 那些 不 需要 进行 数据 流 分 析 的 优化 是 流 不 敏感 的 。 

区 分 可 能 与 一 定 的 重要 性 在 于 ， 它 告诉 我 们 一 个 性 质 是 否 一 定 成 立 ， 因 而 可 以 依赖 ;或 者 
只 是 可 能 成 立 ， 因 此 必须 考虑 ， 但 不 能 依赖 。 

流 敏 感性 分 类 的 重要 性 在 于 ， 它 决定 了 所 考虑 问题 的 计算 的 复杂 性 。 流 不 敏感 问题 可 采用 
与 控制 流 无 关 的 方式 ， 通 过 解 子 问题 ， 然 后 组 合 它们 的 解 来 提供 对 整个 问题 的 解 。 而 流 敏感 问 
题 需要 我 们 遵循 流 图 的 控制 流 路 径 来 计算 其 解 。 


11.3 各 种 优化 的 重要 性 


理解 后 面 几 章 要 讨论 的 各 种 优化 的 相对 价值 是 重要 的 。 在 这 样 说 时 ， 必 须 立即 补充 的 一 点 
就 是 ， 我 们 考虑 的 是 对 范围 广泛 的 典型 程序 的 价值 ， 因 为 对 于 几乎 每 一 种 优化 或 一 组 优化 ， 我 
们 都 可 以 为 它 构造 出 使 其 十 分 有 价值 ， 并 且 只 有 这 种 优化 起 作用 的 程序 。 我 们 将 第 12 到 第 18 章 
涉及 到 的 过 程 内 的 (或 全 局 的 ) 优化 分 为 4 组 ， 从 工 到 IWW ， 其 中 第 I 组 优化 是 最 重要 的 ， 第 IV 
组 优化 的 重要 性 相对 最 低 。 


第 工 组 包含 几乎 所 有 对 循环 进行 操作 的 优化 ， 但 也 包含 了 在 多 数 系统 中 对 几乎 所 有 程序 都 
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是 重要 的 若干 优化 ， 如 常数 折 释 、 全 局 寄存 器 分 配 以 及 指令 调度 。 第 1 组 包括 : 

1. BBR 

2. 代数 化 简 和 重 结合 ; 

3. 全 局 值 编号 ; 

4. 稀有 条 件 常数 传播 ; 

5. 由 公共 子 表达 式 删除 和 循环 不 变 代码 外 提 组 成 的 一 对 优化 ， 或 部 分 元 余 删除 一 种 优化 ; 

6. 强度 削弱 ; 

7. 归纳 变量 删除 和 线性 函数 测试 替换 ; 

8 死 代码 出 除 : 

9. 不 可 到 达 代码 删除 (控制 流 优化 ); 

10. 图 着 色 寄 存 器 分 配 ; . 

11. 软 流水 ， 附 带 循环 展开 、 变 量 扩 张 、 寄 存 器 重 命 名 和 层次 归 约 ; 

12. 分 支 和 基本 块 ( 表 ) WE. 
一 般 而 言 ， 我 们 推荐 采用 部 分 元 余 删 除 (参见 13.3 节 )， 而 不 采用 公共 子 表达 式 删 除 和 循环 不 变 代 
码 外 提 ， 因 为 部 分 完 余 删除 将 后 面 两 种 优化 合并 为 一 遍 优化 , 并 且 也 删除 部 分 元 余 代 码 。 另 一 方面 ， 
将 公共 子 表达 式 删 除 和 循环 不 变 代 码 外 提 组 合 在 一 起 涉及 到 要 解 许多 较 小 的 数据 流 方程 ， 因 此 ， 如 
果 编 译 速度 是 关键 ， 并 且 不 执行 许多 其 他 的 优化 的 话 ， 采 用 部 分 宛 余 删 除 可 能 是 更 合适 的 做 法 。 

第 I 组 中 的 优化 由 其 他 的 循环 优化 和 一 系列 作用 于 有 循环 或 无 循环 的 许多 程序 的 优化 所 组 
成 ， 即 : 

1. 局 部 和 全 局 复写 传播 ; 

2. 叶 例 程 优化 ; 

3. 机 器 方言 和 指令 归并 ; 

4. 分 支 优化 和 循环 倒置 ; 

5. 不 必要 的 边界 检查 删除 ; 

6. 分 支 预测 。 

第 亚 组 由 作用 于 整个 过 程 的 优化 和 能 增加 其 他 优化 的 可 应 用 性 的 优化 组 成 ， 即 : 

1. 过 程 集 成 ; 

2. 尾 调用 优化 和 尾 递归 优化 ; 

3. ER D HB; 

4. 收缩 包装 ; 

5. 聚合 量 的 标量 替代 ; 

6. 其 他 的 控制 流 优 化 〈 伸 直 化 、ift 化 简 、 无 开关 化 和 条 件 传送 )。 

最 后 ， 第 ITV 组 由 节省 代码 空间 ， 但 一 般 不 节省 时 间 的 优化 组 成 ， 即 : 

1. 代码 提升 ; 

2. 尾 融合 。 

过 程 间 和 面向 存储 器 的 优化 的 相对 重要 性 在 与 它们 有 关 的 几 章 中 讨论 。 


11.4 ”优化 的 顺序 与 重复 


图 11-1 给 出 了 第 12~20 章 中 所 讨论 的 优化 (但 只 包括 了 第 17 章 的 分 支 和 基本 块 调度 以 及 软 流水 ) 
的 执行 顺序 。 我 们 容易 构造 出 一 些 例子 证 明 不 存在 对 所 有 程序 都 是 最 优 的 优化 顺序 ， 但 有 一 些 优 
化 顺序 通常 比 其 他 顺序 更 可 取 。 在 第 21 章 介绍 的 商业 编译 器 中 可 以 找到 关于 优化 顺序 的 其 他 选择 。 
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首先 ， 常 数 折合 以 及 由 代数 化 简 和 重 结合 组 成 的 一 对 优化 最 好 构造 成 子 程序 ， 以 便 其 他 优 
化 可 随时 根据 需要 来 调用 。 因 为 在 编译 处 理 过 程 中 有 若干 阶段 可 能 会 引入 新 的 常数 表达 式 ， 对 
这 些 常 数 表达 式 执 行 常数 折 共 和 /或 代数 化 简 和 重 结 合 有 利于 增加 其 他 优化 的 效果 。 

在 A 框 中 的 优化 最 好 针对 高 级 中 间 语 言 (如 HIR) 进行 。 这 两 种 优化 都 需要 依赖 关系 分 析 
提供 的 信息 。 我 们 先 对 数组 引用 执行 标量 替代 ， 因 为 它 将 某 些 数组 引用 转换 成 标量 变量 ， 从 而 
减少 了 数据 高 速 缓存 优化 需要 处 理 的 数组 引用 的 数量 。 接 着 进行 数据 高 速 缓存 优化 是 因为 它们 
需要 在 具有 明显 数组 下 标 和 循环 控制 的 高 级 中 间 语 言 上 进行 。 

B 框 中 的 优化 最 好 针对 高 级 或 中 级 中 间 语 言 (如 HR 或 MIR)， 并 且 最 好 在 优化 阶段 的 早期 
进行 。 其 中 前 三 个 优化 都 不 需要 进行 数据 流 分 析 ， 而 剩余 的 四 个 优化 都 需要 。 首 先 执 行 过 程 集 
成 是 因为 它 能 增加 过 程 内 优化 的 范围 ， 并 且 可 以 将 一 对 或 更 大 的 一 组 相互 递归 的 子 程序 转换 成 
单一 子 程序 。 接 着 进行 尾 调用 优化 是 因为 它 的 尾 递归 删除 部 分 能 将 自我 递归 子 程序 (包括 由 过 
程 集成 创建 的 递归 子 程序 ) 转换 成 循环 。 其 后 进行 聚合 量 的 标量 替代 ， 因 为 它 将 某 些 结构 成 员 
转换 成 标量 ， 使 得 后 面 的 优化 能 够 访问 它们 。 接 下 来 进行 稀有 条 件 常数 传播 ， 因 为 源 代码 可 能 
含有 可 常数 传播 的 情况 ， 但 前 面 的 优化 可 能 没有 发 现 能 应 用 它 的 更 多 机 会 。 接 着 是 过 程 间 常数 
传播 ， 因 为 它 可 以 从 前 面 过 程 内 的 常数 传播 遍 获 得 好 处 ， 并 且 它 能 提供 指导 过 程 特殊 化 和 克隆 
所 需要 的 许多 信息 。 接 着 是 过 程 特殊 化 和 克隆 ， 因 为 它们 可 以 从 前 面 的 优化 中 受益 ， 并 且 给 下 
一 优化 提供 指导 信息 。B 框 中 稀有 条 件 常数 传播 作为 最 后 一 遍 重 复 进 行 ， 因 为 过 程 特殊 化 和 克 
隆 通常 将 过 程 转换 为 其 中 一 些 参 数 为 常数 的 版 本 。 当 然 ， 如 果 发 现 没 有 常数 参数 ， 我 们 可 以 跳 
过 这 个 过 程 内 的 常数 传播 遍 。 

C 围 住 的 这 儿 个 框 内 的 优化 最 好 在 中 级 或 低级 中 间 语 言 ( 如 MIR 或 LIR) 上 ,并 且 在 B 框 的 
优化 之 后 进行 。 这 些 优化 中 有 一 些 需 要 进行 数据 流 分 析 ， 如 到 达 定 值 、 非 常 忙 表达 式 和 部 分 元 
余 分 析 。 首 先进 行 的 是 全 局 值 编号 、 局 部 和 全 局 复写 传播 及 稀有 条 件 常数 传播 ， 并 按 此 顺序 
(C1 框 )， 因 为 它们 能 增加 使 得 C 部 分 的 其 余 优 化 更 加 有 效 的 操作 数 的 个 数 。 注 意 ， 这 种 顺序 使 
得 更 适合 针对 SSA 形 式 的 代码 执行 复写 传播 ， 因 为 在 它 之 前 和 之 后 的 优化 都 需要 SSA 形 式 的 代 
码 。 接 着 进行 的 死 代 码 删 除 遍 去 除 由 前 面 的 优化 〈 尤 其 是 常数 传播 ) 发 现 的 所 有 死 代码 ， 从 而 
减少 了 后 续 优 化 要 处 理 的 代码 大 小 和 复杂 性 。 

接 下 来 进行 的 是 元 余 删 除 ， 它 可 以 是 由 (局 部 和 全 局 ) 公共 子 表达 式 和 循环 不 变 代码 外 提 
组 成 的 一 对 优化 (C2 框 )， 或 者 是 部 分 元 余 删 除 (C3 框 )。 两 者 的 目的 基本 相同 ， 并 且 一 般 最 
好 在 图 表 中 跟随 在 它们 之 后 的 那些 转换 之 前 进行 ， 因 为 它们 减少 了 其 他 循环 优化 需要 处 理 的 代 
码 量 ， 并 且 暴 露 了 另外 的 有 价值 的 优化 机 会 。 

在 C4 框 中 ， 我 们 做 死 代码 删除 来 去 除 被 元 余 删 除 杀 死 的 代码 。 接 着 进行 代码 提升 和 归纳 变 
量 优化 ， 因 为 它们 都 能 从 前 面 的 优化 中 ， 尤 其 是 图 中 列 出 的 直接 先 于 它们 的 优化 中 获得 好 处 。 
C4 中 最 后 进行 控制 流 优 化 ， 即 ， 不 可 到 达 代码 删除 、 伸 直 化 、 计 和 循环 化 简 、 循 环 倒置 及 无 开 
关 化 。 

D 框 的 优化 最 好 在 优化 过 程 较 后 阶段 进行 ， 并 且 最 好 针对 低级 中 间 代 码 〈 例 如 LIR)， 或 者 
汇编 或 机 器 语言 。 我 们 首先 进行 过 程 内 联 优化 ， 以 便 暴 露 更 多 的 后 面 优化 要 操作 的 代码 。 在 叶 
例 程 优化 、 收 缩 包 装 、 机 器 方言 、 尾 融合 ， 以 及 分 支 优化 和 条 件 传送 之 间 没 有 强烈 的 顺序 要 求 ， 
但 是 它们 最 好 在 过 程 内 联 优化 之 后 和 剩余 的 优化 之 前 进行 。 然 后 ， 我 们 重复 死 代码 删除 ， 之 后 
是 软 流水 ， 指 令 调度 和 寄存 器 分 配 。 这 些 优化 确定 了 代码 的 最 终 形态 。 我 们 在 D 框 的 最 后 进行 
静态 分 支 预测 ， 以 便利 用 代码 具有 的 最 终 形态 。 

E 框 中 的 优化 是 针对 可 重 定位 加 载 模块 并 在 它 的 各 部 分 已 连接 到 一 起 、 但 还 未 装载 之 前 进 
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行 的 。 这 三 种 优化 都 需要 我 们 能 够 得 到 整个 加 载 模块 。 我 们 在 全 局 聚合 之 前 进行 过 程 间 寄 存 器 
分 配 ， 因 为 前 者 可 能 通过 为 全 局 变量 分 配 寄 存 器 而 减少 全 局 引用 的 数量 。 我 们 最 后 进行 过 程 间 
的 指令 高 速 缓 存 优化 ， 因 为 它 可 利用 加 载 模块 的 最 终 形 态 。 

尽管 上 面 建议 的 顺序 在 实际 中 一 般 是 相当 有 效 的 ， 但 也 很 容易 创造 一 些 可 通过 对 优化 转换 
序列 重复 任意 给 定 次 数 而 得 到 好 处 的 程序 (我 们 将 这 样 做 的 例子 留 给 读者 作为 练习 )。 虽 然 可 
以 构造 出 这 种 例子 ,但 重要 的 是 应 注意 它们 在 实际 中 很 少 出 现 。 


11.5 进一步 阅读 


Wall [Wall9H] 给 出 了 关于 运行 时 剖面 分 析 数 据 与 程序 实际 性 能 对 应 情况 的 研究 报告 。 
区 分 可 能 和 一 定 信息 是 由 Barth [Bart78] 首 先 介 绍 的 ， 而 区 分 流 敏感 和 流 不 敏感 信息 是 由 
Banning [Bann79] 介 绍 的 。 


11.6 练习 


RSCH 11.1 阅读 [Wall91]。 关 于 运行 时 剖面 分 析 和 程序 实际 性 能 的 相关 性 ， 从 这 篇 文章 中 能 得 
到 什么 结论 ? 你 对 这 方面 进一步 的 研究 有 什么 好 的 建议 ? 
1L2 创造 三 个 MIR 代 码 序列 的 例子 ， 它 们 分 别 能 从 上 面 讨论 的 不 同 优化 顺序 中 效益 
(你 可 以 选择 三 种 优化 顺序 )。 
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我 们 从 现在 开始 讨论 一 系列 的 局 部 和 全 局 优化 。 这 一 章 讨 论 常 数 表 达 式 计算 〈 人 常数 折 登 )、 
聚合 量 标量 替代 、 代 数 化 简 和 重 结合 、 值 编号 、 复 写 传播 及 稀有 条 件 常数 传播 。 前 面 三 种 优化 
独立 于 数据 流 分 析 ， 即 ， 它 们 的 执行 无 须 考虑 是 否 执行 了 数据 流 分 析 。 后 面 三 种 优化 由 于 效率 
和 正确 性 的 缘故 ， 需 要 依赖 于 数据 流 分 析 有 关 的 信息 。 


12.1 常数 表达 式 计算 (RTH) 


常数 表达 式 计算 (constant-expression evaluation), dk 3x4; Æ (constant folding )， 指 
的 是 在 编译 时 计算 其 操作 数 已 知 是 常数 的 表达 式 。 在 多 数 情况 下 这 是 一 种 相对 容易 的 转换 。 在 
它 的 最 简单 形式 中 ， 常 数 表达 式 计算 包括 判别 表达 式 的 所 有 操作 数 是 否 为 常数 值 ， 在 编译 时 计 
算 此 表达 式 ， 以 及 用 计算 结果 替代 该 表达 式 。 对 于 布尔 值 ， 总 是 可 以 应 用 这 种 优化 。 . 

对 于 整 型 常数 表达 式 ， 大 多 数 情形 下 都 可 应 用 这 种 优化 一 但 有 些 情形 例外 ， 即 ， 当 执行 这 
种 常数 表达 式 会 导致 运行 时 出 现 异 常 时 ， 例 如 ， 零 做 除数 ， 以 及 用 其 语义 要 求 检 测 溢出 的 语言 书 
写 的 常数 表达 式 可 能 出 现 溢出 时 。 在 编译 时 对 这 种 情形 进行 常数 折 释 需要 判断 对 于 程序 可 能 有 的 


输入 ， 这 些 表达 式 在 运行 时 是 否 实际 会 执行 。 如 果 会 执行 ， 可 以 用 产生 适当 报错 信息 的 代码 来 震 


代 它们 ,或 者 (更 可 取 的 ) 在 编译 时 产生 警告 信息 指出 可 能 发 生 的 错误 ， 或 者 同时 产生 这 两 种 信 
息 。 对 于 地 址 表达 式 的 特殊 情形 ， 常 数 折 释 计算 总 是 值得 做 并 且 是 安全 的 一 一 溢出 与 它们 无 关 。 
图 12-1 给 出 了 一 个 执行 常数 表达 式 计 算 的 算法 。 函 数 Constant(v) 返 回 true， 如 果 它 的 参数 是 党 
数 ， 否 则 返回 false。 当 opr 是 二 元 运算 符 时 ， 函 数 Perform_Bin (opr, opdl, opd2) 计算 表达 式 
opdl opr opd2; 当 opr 是 一 元 运算 符 时 ， 销 数 Perform_Un (opr, opd) 计算 表达 式 opr opd; 这 两 个 
函数 的 返回 结果 都 是 类 型 为 kind const 的 MIR 操 作 数 。 计 算是 在 与 目标 机 的 行为 完全 相同 的 环 
境 中 进行 的 ， 即 ， 计 算 结 果 必 须 与 运行 时 执行 得 出 的 结果 完全 一 致 。 
procedure Const Eval(inst) returns MIRInst 
inst: inout MIRInst 
begin 
result: Üperand 
case Exp Kind(inst.kind) of 
binexp: if Constant(inst.opdi) & Constant(inst.opd2) then 
result := Perform Bin(inst.opr,inst.opdi.inst.opd2) 
if inst.kind - binasgn then 
return (kind:valasgn,left:inst.left,opd:result) 
elif inst.kind = binif then 
return (kind:valif,opd:result,l1bl:inst.1b1) 
elif inst.kind - bintrap then i 
return (kind:valtrap,opd:result, 
trapno:inst.trapno? 





















fi 






unexp: Constant(inst.opd) then 
result := Perform Un(inst.opr,inst.opd) 
if inst.kind - unasgn then 


图 12-1 执行 常数 表达 式 计算 的 算法 
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return (kind:valasgn,left:inst.left,opd:result) 
elif inst.kind = unif then 

return (kind:valif,opd:result,lbl:inst.1lb1) 
elif inst.kind - untrap then 

return (kind:valtrap,opd:result, 


trapno:inst.trapno) 
fi 
fi 
default:return inst 
esac 
end H Const_Eval 
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对 于 浮 点 常数 表达 式 ， 情 况 要 复杂 一 些 。 首 先 ， 我 们 必须 保证 编译 时 的 浮 点 运算 与 目标 机 
的 一 致 ， 或 者 ， 如 果 不 一 致 的 话 ， 编 译 器 要 提供 适当 的 模拟 器 来 模拟 执行 目标 机 的 浮 点 运算 。 
否则 ， 编 译 时 执行 的 浮 点 运算 结果 可 能 与 运行 时 执行 得 到 的 结果 不 相同 。 其 次 ， 还 存在 浮 点 算 
术 出 现 异 常 的 问题 ， 并 且 可 能 比 整 数 的 情况 更 为 严重 ， 因 为 ANSIIEBE-754 标 准 规定 的 异常 和 
异常 值 类 型 多 于 已 经 实现 的 任何 整数 算术 运算 模式 。 可 能 的 情形 包括 无 穷 值 、NaN ( 非 数 值 值 )、 
非 规格 化 的 值 ， 以 及 可 能 出 现 的 〈 需 要 考虑 的 ) 各 种 异常 。 任 何 考 虑 在 优化 器 中 实现 浮 点 常数 
表达 式 计 算 的 人 都 应 当 阅 读 ANSIIEEE-754 1985 标 准 和 Goldberg 对 这 个 标准 非常 严谨 的 解释 
(参见 12.8 节 的 参考 文献 )。 

: 同 其 他 所 有 与 数据 流 无 关 的 优化 一 样 ， 常 数 表 达 式 计算 的 效果 可 以 通过 将 它 与 数据 流 有 关 
的 优化 (尤其 是 常数 传播 ) 结合 在 一 起 而 得 到 增强 。 - 

常数 表达 式 计算 (BER) 最 好 如 图 12-37 所 示 ， 构造 成 可 以 随 优化 需要 而 调用 的 子 程序 。 


12.2 RAMESH 


FA GE, (scalar replacement of aggregate) 能 够 使 其 他 优化 作用 于 聚合 对 象 〈 如 C 
的 结构 和 Pascal 的 记录 ) 的 分 量 。 它 是 一 种 相对 简单 和 有 效 的 优化 ， 但 我 们 发 现 只 在 少数 编译 
器 中 有 这 种 优化 。 它 的 工作 是 判别 聚合 对 象 的 哪些 分 量具 有 简单 的 标量 值 ， 然 后 将 这 种 分 量 冉 
给 其 类 型 与 分 量 相同 的 临时 变量 。 

其 结果 是 ， 这 种 分 量 成 了 寄存 器 分 配 、 常 数 和 复写 传播 ， 以 及 其 他 作用 于 标量 的 优化 的 候 
选 对 象 。 这 种 优化 可 以 在 整个 过 程 内 来 进行 ， 也 可 以 只 在 一 个 较 小 的 范围 (如 循环 ) 内 进行 。 
一 般 而 言 ， EE ERE DIDA A TIE PURUS IE Ae 
更 好 地 改善 代 
该 循环 的 整个 过 程 中 却 不 满足 。 

作为 聚合 量 标量 替代 的 一 个 简单 例子 ， 考虑 图 12- 2 的 C 代 码 。 我 们 首先 对 main O 中 的 
snack 记 录 做 标量 替代 ， 并 集成 color O 的 过 程 体 到 main O 中 它 的 调用 处 ， 然 后 将 由 此 得 到 
的 switch 语 句 中 的 &snack->variety 转 换 成 等 价 的 snack .variety， 由 此 产生 的 代码 如 
图 12-3 所 示 。 接 下 来 我 们 传播 snack .variety (现在 它 已 被 t1 替 换 ) 的 常数 值 至 switch 语 
句 ， 最 后 做 死 代 码 删除 ， 结 果 得 到 如 图 12-4 所 示 的 代码 。 

为 了 执行 取 合 量 标量 替代 优化 ， 我 们 将 每 一 个 结构 划分 为 一 串 不 同 的 变量 。 比 如 说 ， 
对 于 图 12-2 的 例子 ， 它 们 是 snack_variety 和 snack_shape。 然 后 执行 一 般 的 优化 ， 具 
体 就 是 常数 传播 和 复写 传播 。 当 且 仅 当 标 量 替 代 能 使 其 他 优化 起 作用 上 时， 标量 替代 才 是 有 
用 的 。 
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typedef enum ( APPLE, BANANA, ORANGE ) VARIETY; 
typedef enum ( LONG, ROUND ) SHAPE; 
typedef struct fruit ( 

VARIETY variety; 

SHAPE shape; ) FRUIT; 
char* Red = "red"; 
char* Yellow = "yellow"; 
char* Orange - "orange"; 


















char* 
color (CurrentFruit) 
FRUIT *CurrentFruit; 
{ switch (CurrentFruit->variety) { 
case APPLE: return Red; 
break; 
case BANANA: return Yellow; 
break; 
case ORANGE: return Orange; 


} 


main( ) 
{ FRUIT snack; 

snack.variety = APPLE; 
snack.shape = ROUND; 

printf ("%s\n", color(&snack)) ; 





图 12-2 用 于 C 中 聚合 量 标量 替代 的 简单 例子 


char* Red = "red"; 
char* Yellow = "yellow"; 
char* Orange = "orange"; 





main( ) 

{ FRUIT snack; 
VARIETY t1; 
SHAPE t2; 
COLOR t3; 
tl = APPLE; 
t2 = ROUND; 


switch (ti) ( 
case APPLE: t3 - Red; 





break; 
case BANANA: t3 = Yellow; 
break; 
case ORANGE: t3 - Orange; main( ) 
printf ("%s\n",t3) ; t printf("AsWn", "red"); 
图 12-3 图 12-2 通 过 过 程 集成 和 聚合 量 图 12-4 图 12-3 中 的 程序 经 过 常数 传播 
标量 替代 得 到 的 主 过 程 和 死 代 码 删除 之 后 的 主 过 程 


这 种 优化 对 那 种 对 复数 进行 运算 的 程序 特别 有 用 。 典 型 地 ， 复 数 用 一 对 实数 组 成 的 记录 来 
表示 。 例 如 ，SPEC 基 准 程序 中 的 7 个 核心 程序 之 一 nasa7， 它 是 一 个 进行 双 精 度 复数 快速 传 里 叶 
变换 的 程序 ， 用 Sun 的 SPARC 编 译 器 ， 在 打开 其 他 优化 开关 的 基础 上 再 加 上 标量 替代 ， 可 以 使 运 
行 时 间 再 减少 15%。 





12.3 代数 化 简 和 重 结合 


代数 化 简 (algebraic simplification) 利用 运算 符 或 运算 符 - 操 作 数 的 特殊 组 合 的 代数 性 质 
来 简化 表达 式 。 重 结合 (reassociation) 指 的 是 利用 特定 的 代数 性 质 一 一 即 结合 律 、 交 换 律 和 分 
配 律 一 一 来 将 表达 式 划分 成 常数 部 分 、 循 环 不 变 部 分 〈 即 对 于 循环 的 所 有 迭代 都 具有 相同 值 ) 
和 变量 部 分 。 我 们 的 多 数 例 子 用 源 代码 而 不 是 用 MIR 来 表示 ， 因 为 源 代码 更 容易 理解 ， 也 因为 
将 它 转换 到 MIR 是 简单 的 。 

与 常数 折 双 类似、 代数 化 简 和 重 结 合 最 好 构造 成 可 以 由 需要 使 用 它 的 其 他 遍 调 用 的 子 程序 
(参见 图 12-37)。 

最 明显 的 代数 化 简 包括 将 一 个 二 元 运算 符 和 一 个 对 于 该 运算 符 是 代数 恒 等 元 素 的 操作 数 合 
并 ， 或 与 一 个 无 论 另 一 个 操作 数 的 值 是 什么 ， 它 总 是 常数 的 操作 数 合并 。 例 如 ， 对 于 整 常数 或 
变量 i， 下 面 的 式 子 总 是 成 立 : 

i+0=0+i=i-0=1i 

0-i=-i 

i*1=1*i=i/1=!i 

i*x0s0*1i1-20 
也 有 一 些 化 简 可 应 用 于 一 元 运算 符 ， 或 应 用 于 一 元 和 二 元 运算 符 的 组 合 ， 例 如 

-(-D-7i 

i«(-D-i-j 
类 似 的 化 简 也 能 应 用 于 布尔 类 型 和 位 域 类 型 。 对 于 一 个 布尔 常数 或 变量 b， 我 们 有 ， 

b V true=true V b= true 

b V false=false V b=b 
并 且 对 于 & 也 有 相应 的 规则 。 对 于 位 域 值 ， 其 规则 与 作用 于 布尔 值 的 规则 类 似 ， 对 于 移 位 也 有 其 他 
规则 。 假 设 /有 一 个 位 域 值 ， 其 长 度 <w， 其 中 mw 即 机 器 的 字 长 ， 则 下 面 的 化 简 可 作用 于 逻辑 移 位 : 

fshl0=fshr0=fshra0=f 

fshlw=fshrw=fshraw=0 

代数 化 简 也 可 用 于 关系 运算 符 ， 这 取决 于 被 编译 的 目标 体系 结构 。 例 如 ， 在 具有 条 件 代码 
的 机 器 上 测试 ! < j， 当 i 一 已 计算 出 时 ， 如 果 这 个 减法 设置 了 条 件 码 ， 则 可 用 一 个 根据 此 条 件 
码 是 否 为 负 的 分 支 来 实现 它 。 注 意 ， 这 个 减法 可 能 导致 溢出， 关系 运算 则 不 会 ， 但 通常 可 以 简 
单 地 忽略 这 种 情况 。 

有 些 化 简 可 以 看 成 是 强度 削弱 ， 即 用 一 种 计算 速度 更 快 的 运算 来 替代 另 一 种 运算 ， 例如 ， 

i t 2zi*i 

2*i-i*i 
(其 中 i 是 整数 值 )。 用 一 串 移 位 和 加 法 运算 (对 于 PA-RISC, 是 移 位 和 加 的 组 合 指令 ) RAE 
以 一 个 小 常数 的 乘法 运算 常常 比 用 简单 的 乘法 指令 要 更 快 。 例 如 ， 计 算 1*5 可 以 用 

t ~- i shl 2 

t- tei 
来 代替 。 而 i*7 可 用 

t e i shi 3 


t-t-i 


来 代替 。 这 种 技术 如 果 在 代码 生成 时 应 用 通常 要 比 在 优化 时 应 用 更 有 效果 。 
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另 一 类 化 简 涉 及 到 利用 交换 律 和 结合 律 。 例 如 ， 对 于 整数 变量 i 和 j， 

(i- j)+(i - j3)(i-j«(i-3j)4*i-aAs*j 
但 这 个 简化 形式 可 能 导致 一 个 欺骗 性 的 溢出 。 例 如 ， 在 32 位 的 系统 中 ， 如 果 i = 2 ”= 
0x40000000，j =2?-1=0x3fffffff， 则 左 端 的 表达 式 计算 结果 为 4 且 不 会 出 现 溢出 ， 而 
右 端的 表达 式 虽 然 结果 也 是 4， 但 会 导致 两 次 游 出 ， 每 个 乘法 有 一 次 。 这 两 个 游 出 是 否 有 关系 
取决 于 源 语言 一 一 对 于 C 或 Fortran 77 没 有 关系 ， 但 对 于 Ada 却 有 关系 。 关 键 是 优化 实现 必须 知 
道 这 个 问题 。 尽 管 Fortran 77 忽 略 这 里 的 溢出 ， 但 在 其 标准 6.6.3 节 中 声明 ， 计 算 带 有 括号 的 表 
达 式 必须 尊重 括号 的 顺序 ， 因 此 ， 对 于 Fortran 77， 这 仍然 是 不 合法 的 转换 。 

以 下 几 小 节 中 ， 我 们 给 出 一 个 代数 化 简 的 算法 ， 它 讨论 的 是 地 址 计算 表达 式 的 代数 化 简 ， 
并 且 也 同样 可 应 用 于 整数 和 布尔 表达 式 。 通 常 代 数 化 简 本 身 对 性 能 改善 并 没有 特别 大 的 效果 ， 
但 它们 常常 能 使 得 其 他 优化 有 可 能 进行 。 例 如 ， 给 定 一 条 嵌入 在 Fortran 77 循 环 内 的 语 名 

i=i + j *1 
尽管 已 知 j 在 包含 它 的 循环 中 是 一 个 常数 ,但 却 可 能 未 能 识别 出 i 是 一 个 归纳 变量 (参见 14.1 节 )。 
对 它 化 简 得 到 Í 

i-i + j 
则 肯定 能 使 得 i 被 识别 为 归纳 变量 。 同 样 ， 其 他 优化 也 为 代数 化 简 提供 了 机 会 。 例 如 ， 常 数 折 
全 和 常数 传播 将 转换 

j=0 
1*j 
itk*1 


j = 0 

k = 0 
这 使 得 对 i 的 赋值 完全 可 以 被 删除 。 

规范 化 是 一 种 能 简化 代数 化 简 的 识别 过 程 的 转换 ， 我 们 在 下 一 节 讨 论 它 。 这 种 转换 运用 交 
换 律 来 调整 表达 式 中 操作 数 的 顺序 ， 以 便 使 得 ， 比 如 说 ， 一 个 含 一 个 变量 和 一 个 常数 的 表达 式 
总 是 用 常数 作为 它 的 第 一 个 操作 数 。 这 样 便 使 得 要 做 的 检查 几乎 减少 了 一 半 。 


12.3.1 “地址 表达 式 的 代数 化 简 和 重 结合 


地 址 表达 式 的 代数 化 简 和 重 结合 (algebraic simplification and reassociation of addressing 
expressions) 是 溢出 不 会 造成 地 址 计算 结果 不 同 的 一 种 特殊 情形 ， 因 此 可 以 不 受 惩罚 地 执行 这 


种 转换 。 它 使 得 我 们 能 在 编译 时 计算 地 址 计算 中 出 现 的 常数 表达 式 的 值 ， 能 放大 和 简化 循环 不 


变 表 达 式 (参见 13.2 节 )， 并 能 对 地 址 计算 中 耗 时 较 大 的 操作 进行 强度 削弱 (参见 14.1.2 节 )。 
因为 溢出 决 不 会 使 地 址 算术 有 所 不 同 ， 我 们 前 面 讨 论 的 所 有 整数 化 简 方 法 都 能 够 无 惩罚 地 
用 于 地 址 计算 ， 但 是 它们 中 的 很 多 方法 却 极 少 被 使 用 。 到 目前 为 止 ， 对 地 址 计算 最 重要 的 代数 
化 简 方 法 是 运用 结合 律 、 交 换 律 和 分 配 律 构成 的 重 结合 方法 。 
简化 地 址 表达 式 的 一 般 策略 是 规范 化 (canonicalization)， 即 , 将 它们 转换 成 乘积 之 和 ， 
然后 应 用 交换 律 将 常数 部 分 和 循环 不 变 部 分 集中 到 一 起 。 作 为 一 个 例子 ， 考 虑 图 12-5 的 Pascal 
程序 段 。a [i，j] 的 地 址 是 


base a «((i - lol)*(hi2 - 102 + 1)« j - 102)* w 


其 中 base_a 是 数组 的 基地 址 ，w 是 类 型 为 el1type 的 对 象 的 字 节 大 小 。 这 个 表达 式 需要 2 个 乘 





法 、3 个 加 法 和 3 个 减法 一 一 对 于 循环 内 连续 访问 的 数组 元 素 ， 这 样 大 的 计算 量 确实 有 悖 常理 。 
在 编译 时 w 的 值 总 是 已 知 的 。 类 似 地 ，lol1、hi1l、1oc2 和 hi2 也 都 可 能 是 编译 时 已 知 的 ; 我 们 
这 里 假定 它们 是 已 知 的 。 重 结合 这 个 地 址 表达 式 使 常数 部 分 集中 在 左 端 ， 得 到 l 

- (lol * (hi2 - 102 + 1) - 102) * w + base a 

+ (hi2 - 102 +1) * i*we« j*w 

并 且 

-(1ol *(hi2 - 102 + 1)- 102)* w 
全 部 可 在 编译 时 计算 ， 而 剩余 中 的 大 部 分 ， 即 


base_a «(hi2 ~ 1lo2 + 1)* i*w 


是 循环 不 变量 ， 因 此 可 只 在 进入 循环 之 前 计算 一 次 。 剩 下 在 每 一 个 迭代 要 计算 并 相 加 的 只 有 
j*w 部 分 ， 而 这 个 乘法 运算 又 可 以 被 强度 削弱 为 加 法 。 于 是 ,我们 将 原来 的 2 个 乘法 、3 个 加 法 、 
3 个 减法 简化 为 一 个 加 法 。 这 是 在 一 般 情况 下 一 一 
而 在 图 12-5 例 子 中 ， 实 际 上 还 可 以 进一步 减少 
计算 量 ， 因 为 我 们 为 两 次 出 现 的 a [i，j 1 计算 
相同 地 址 ， 因 此 ， 只 需要 做 一 次 加 法 ， 而 不 是 
两 次 。 . end 

简化 地 址 表达 式 相 对 较 容易 ， 尽 管 它 与 我 。 图 12-5 访问 一 个 数组 的 元 素 的 Pascal 程 序 段 
们 选择 的 中 间 代 码 结 构 稍微 有 点 相关 。 一 般 应 
当 把 它 看 成 是 (或 实际 上 是 这 样 做 ) 将 地 址 计算 的 中 间 代 码 指 令 收集 到 一 起 ， 并 使 其 成 为 一 棵 
表达 式 树 ， 其 树 根 代表 结果 地 址 。 然 后 对 这 棵 树 递 归 地 应 用 结合 律 、 交 换 律 、 分 配 律 、 代 数 恒 
等 以 及 常数 折 又 ， 使 它 成 为 乘积 之 和 的 规范 化 形式 (其 中 构成 一 个 乘积 的 两 个 项 中 有 一 个 是 ， 
或 者 两 个 都 是 常数 值 分 量 之 和 ) ; 交换 律 用 于 集中 常数 值 分 量 (一 般 作 为 树 根 的 左 结 点 ) ; 然 
后 这 棵 树 被 分 解 成 一 条 条 的 指令 (假定 这 棵 树 不 是 所 使 用 的 中 间 代 码 形式 )。 

另 一 种 方法 是 ， 可 以 将 由 MIR 或 LIR 指 令 序 列表 示 的 计算 合并 成 一 个 表达 式 ( 它 不 是 正常 
的 中 间 代 码 )， 对 这 个 表达 式 施 加 代数 化 简 转 换 ， 然 后 将 得 到 的 结果 表达 式 再 转换 回 到 正常 的 
-中 间 代 码 序列 。 o 

在 标识 常数 值 分 量 过 程 中 应 当 小 心 对 待 那些 在 当前 上 下 文 内 〈 如 循环 内 ) 是 常数 值 ， 但 在 
较 大 程序 范围 内 不 是 常数 值 的 分 量 。 

为 了 实现 MIR 地 址 表达 式 的 化 简 ， 我 们 将 MIR 表 达 式 转换 成 树 ， 按 有 顺序 递归 地 应 用 图 12-6 
所 示 的 转换 规则 ， 然 后 将 树 转换 回 到 MIR。 在 这 些 规则 中 ，c、c1 和 c2 表 示 常 数 ， 上 、tl1、ft2 
和 t3 表 示 任 意 中 间 代码 树 。 

图 12-7 给 出 了 计算 前 面 讨论 过 的 Pascal 表 达 式 a {i ，j] 的 地 址 的 原始 树 ， 以 及 对 它 施加 地 
址 表达 式 化 简 的 第 一 个 步骤 。 图 12-8 和 图 12-9 给 出 了 这 一 化 简 过 程 的 其 余 步 又 。 注 意 ， 施 加 最 
后 一 个 步骤 当 且 仅 当 i 是 地 址 表达 式 所 在 上 下 文 内 的 循环 常数 ， 并 且 C7 应 当 在 包含 它 的 循环 的 
入 口 之 前 计算 ， 而 不 是 在 编译 时 计算 。 符 号 C1 到 C7 表示 如 下 常数 值 : 

Ci = hi2 - 102 + 1 

C2 = -1o01 * Cl 

C3 = C2 - 102 

C4 = C3 * vw 

C5 =Ci*w 


C6 = base_a + C4 
C7 = C6 + C5 * i 






var a: array[loi..hii,102..hi2] of eltype; 
i, j: integer; 


do j = 102 to hi2 begin 
a[i,jl := b + ali, jl 





OH te 


Ci*c2 * 


mw / NT AN 


AAA 


w/o UN 
AAAS 


Cl*c2 x 


w/ N — N 


AA 


图 12-6 为 地 址 表达 式 化 简 而 进行 的 树 转换 
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图 12-6 (#8) 


图 12-7 计算 Pascal 表 达 式 a[i ，j] 的 地 址 的 树 ， 以 及 对 它 化 简 的 第 一 个 步 又 





BY xe ££ ft 


/NG N 


图 12-9 简化 a[i，j1 的 地 址 的 最 后 一 个 步 又 
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图 12-9 (4%) 


常数 部 分 的 识别 可 能 很 简单 ， 因 为 它们 是 源 程序 中 的 明显 常数 ， 或 语义 要 求 的 常数 ; 也 可 
能 通过 数据 流 分 析 而 得 出 。 将 上 面 的 Pascal 程 
序 段 改变 成 如 图 12-10 所 示 情 形 ， 可 得 到 后 一 
种 情形 的 例子 。 常 数 传播 《参见 12.6 节 ) 将 告 
诉 我 们 i 是 循环 内 的 常数 ， 而 不 仅仅 是 循环 不 
变量 ， 从 而 可 以 进行 编译 时 的 进一步 化 简 。 地 
址 表达 式 的 强度 前 弱 (参见 14.1.2 节 ) 常常 也 
暴露 了 重 结合 的 机 会。 图 12-10 另 一 个 访问 数组 元 素 的 Pascal 程 序 和 

地 址 表达 式 中 也 存在 着 代数 化 简 的 其 他 机 
会 。 例 如 ， 在 C 中 ， 如 果 p 是 一 个 指针 ， 下 面 的 表达 式 总 是 为 真 : 

*(&D) = p 
并 且 ， 如 果 g 是 指向 一 个 含 成 员 s 的 结构 的 指针 ， 下 面 的 表达 式 也 总 是 为 真 。 


(&q)->s = q.s 


var a: array[loi..hii,lo2..hi2] of eltype; 
» j: integer; 








10; 





j * 1o2 to hi2 begin 
a[i,j] := b + a[i,j] 





12.3.2 对 浮 点 表达 式 应 用 代数 化 简 
有 心 的 读者 可 能 已 经 注意 到 了 ， 在 这 一 节 我 们 一 直 没 有 提 到 浮 点 计算 ， 这 是 因为 对 它们 很 
少 能 够 安全 地 施加 代数 化 简 。 例 如 ,ANSVIEEE 浮 点 标准 有 带 正 号 和 人 负 号 的 零 ， 即 +0.0 和 一 0.0， 
并 且 对 于 任意 正 的 有 限 值 -，x/+0.0=+% ， 而 x/ 0.0= 一 。 此 外 ，x+0.0 和 x 不 必 相 等 ， 因 为 ， 
如 果 x 是 一 个 会 产生 信号 的 NAN， 则 当 执 行 前 者 时 会 发 生 异 常 ， 而 后 者 不 会 。 
令 MF 表 示 用 给 定 精度 可 表示 的 最 大 有 限 浮 点 值 。 则 
1.0 + (MF - MF)=1.0 
而 
(1.0 +MF) -MF =0.0 
对 浮 点 计算 必须 小 心 处 理 的 另 一 个 例子 是 如 下 代码 : 
eps := 1.0 
while eps*1.0 > 1.0 do 
oldeps :- eps 
eps := 0.5 * eps 
od 


这 段 代码 计算 的 是 使 得 1+x>1 的 最 小 数 x 并 将 结果 赋 给 oldeps。 如 果 通过 用 eps>0 .0 替代 测试 
eps+1.0>1.0 来 “优化 ” 它 ， 则 它 实 际 计算 的 是 使 得 z/2 伟 人 到 0 的 最 大 xz。 例如， 如 程序 所 写 
的 ， 这 个 例 程 用 双 精 度 计 算出 olaeps =2.220446E-16， 而 它 的 这 个 “优化 ”版 本 计算 出 
oldeps =4.940656E-324。20.4.2 节 讨论 的 循环 转换 会 使 这 一 问题 更 为 严重 。 
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Farnum [Farn88] 认 为 对 ANSUVIEEE 浮 点 适合 的 代数 化 简 只 有 两 种 ， 即 删除 不 必要 的 类 型 强 
制 和 用 等 价 的 乘法 替代 除 以 常数 的 除法 。 不 必要 的 类 型 强制 的 一 个 例子 是 

real s 

double t 


t :- (double)s * (double)s 


在 具有 单 精 度 乘法 运算 的 机 器 上 执行 时 ， 它 会 产生 一 个 双 精 度 结果 。 
当 用 乘法 替代 除 以 一 个 常数 的 除法 时 ， 必 须 确认 这 个 常数 和 它 的 倒数 都 是 可 精确 表示 的 。 
利用 ANSIIEEE 不 精确 标志 能 够 容易 地 确认 这 一 点 。 


12.4 值 编号 


值 编 号 《value numbering) 是 判定 两 个 计算 是 否 等 价 并 删除 其 中 之 一 的 若干 种 方法 之 中 的 
一 种 方法 。 它 在 对 计算 所 执行 的 操作 不 进行 解释 的 情况 下 ， 将 每 个 计算 与 一 个 符号 值 相关 联 ， 
并 使 得 任何 两 个 具有 相同 符号 值 的 计算 总 是 计算 相同 的 值 。 

”具有 类 似 效果 的 另外 三 种 优化 是 稀有 条 件 当 数 传播 (12.6 节 )、 公 共 子 表达 式 删 除 (13.1 节 ，) 
和 部 分 元 余 删 除 (13.3 节 )。 但 事实 上 ， 值 编号 与 这 三 种 方法 是 不 可 比较 的 。 图 12-11 的 例子 说 
明了 值 编号 与 其 他 三 种 方法 之 间 的 区 别 。 在 图 12-1la 中 ， 值 编号 能 确定 出 j 和 1 被 赋予 了 相同 的 
值 ， 但 常数 传播 不 能 ， 因 为 它们 的 值 依赖 于 i 的 输入 值 。 而 且 ， 公 共 子 表达 式 删 除 和 部 分 宛 余 
删除 也 都 不 能 ， 因 为 在 代码 中 没有 公共 子 表达 式 。 在 图 12-11b 中 ， 常 数 传播 能 确定 出 j] 和 k 被 赋 
予 了 相同 的 值 ， 因 为 它 对 算术 运算 进行 解释 ， 而 值 编 号 却 不 能 。 在 图 12-11c 中 ， 公 共 子 表达 式 
删除 和 部 分 元 余 删 除 都 能 确定 出 第 三 个 2*i 的 计算 是 元 余 的 ， 但 值 编号 不 能 ， 因 为 1 的 值 不 总 
是 等 于 j 的 值 和 总 是 等 于 k 的 值 。 由 此 ， 我 们 给 出 了 值 编号 比 其 他 三 种 方法 更 强 有 力 的 例子 ， 
同时 也 给 出 了 其 他 三 种 方法 比值 编号 更 强 有 力 的 例子 。 我 们 在 13.3 节 将 看 到 ， 部 分 元 余 删除 包 
含 了 公共 子 表达 式 删 除 。 





图 12-11 说 明 值 编号 、 常 数 传播 和 公共 子 表达 式 删除 不 可 比较 的 MIR 例 子 


值 编号 原来 的 形式 是 针对 单个 基本 块 的 , 后 来 它 被 扩充 到 了 针对 扩展 基本 块 , 并 且 在 最 近 ， 
它 又 被 扩充 成 了 对 整个 过 程 进行 操作 的 全 局 形式 (参见 12.4.2 节 )。 这 种 全 局 形式 要 求 过 程 采用 
SSA 形 式 。 我 们 首先 讨论 施加 于 基本 块 的 值 编 号 ， 然 后 讨论 施加 于 整个 过 程 的 基于 SSA 形 式 的 
值 编 号 。 


12.4.1 作用 于 基本 块 的 值 编号 


为 了 在 基本 块 内 进行 值 编 号 ， 我 们 用 散 列 方法 对 要 计算 的 表达 式 进行 分 类 。 每 当 遇 到 一 个 
表达 式 时 ， 我 们 便 计算 它 的 散 列 值 。 如 果 这 个 表达 式 不 在 具有 此 散 列 值 的 表达 式 序 列 中 ， 则 将 
它 加 入 到 这 个 序列 。 如 果 表 达 式 计算 所 在 的 指令 不 是 赋值 (例如 ， 是 一 条 if 指令 )， 我 们 将 它 





248 #12 È 


分 解 为 两 条 指令 ， 其 中 第 一 条 指令 计算 这 个 表达 式 并 存储 它 的 结果 到 一 个 新 的 临时 变量 ， 第 二 








条 指令 在 原来 表达 式 的 地 方 使 用 这 个 临时 变 ivi aciri 
量 (参见 图 12-12 的 例子 )。 如 果 表达 式 已 经 |beiti bea 

在 散 列 值 对 应 的 表达 式 序列 中 ， 我 们 用 序列 1 goto L1 ucl 
中 给 出 的 指令 的 左 端 变量 来 替代 当前 计算 。 if tl goto L1 
散 列 函 数 和 表达 式 匹配 函数 的 定义 考虑 到 了 rl cet 
运算 符 的 交换 律 〈 参 见 图 12-12)。 a) b) 


实现 上 述 处 理 的 代码 在 图 12-13 中 给 出 。 图 12-12 基本 块 中 的 值 编号 。a) 中 的 指令 序列 被 
数据 结构 HashSseq[1. .m] 是 一 个 数组 ， 其  b 中 的 指令 序列 所 替换 。 注 意 根 据 交 换 率 ， 第 1 条 
thHashSeq [i] 是 指令 的 索引 序列 ， 这 些 指 和 第 2 条 指令 的 表达 式 认 为 是 相同 的 ， 并 且 
令 中 的 表达 式 被 散 列 到 诅 表 达 式 的 值 是 可 用 第 4 条 指令 从 一 条 一 元 运算 if 转换 为 
的 。 代 码 中 用 到 了 下 面 几 个 例 程 : 一 个 赋值 和 一 个 值 if 

1. Hash (opr, opdl, opd2) 返回 其 参数 组 成 的 表达 式 的 散 列 值 (车 opr 是 一 元 运算 符 ，opd2 
Anil) ; 若 运 算 符 是 可 交换 的 ， 对 操作 数 的 两 种 顺序 ， 它 返回 相同 的 值 。 


Hash: (Operator x Operand x Operand) —> integer 


procedure Value, Number (m,nblocks ,ninsts ,Block,maxhash) 
m, nblocks: in integer 
ninsts: inout array [i::nblocks] of integer 
Block: inout array [1--nblocks] of array [:-] of MIRInst 
maxhash: in integer 
begin 
i: integer 
HashSeq: array [1--maxhash] of sequence of integer 
for i := 1 to maxhash do 
HashSeq[i] := {J 
od 
i := 1 
while i < ninsts[m] do 
case Exp.Kind(Block[m][i].kind) of 
.binexp: i += Process Inst(m,i,nblocks,Block, 
Block[m] [i] .opd1 , Block [m] [i] .opd2, maxhash,HashSeq) 
unexp: i += Process Inst(m,i,nblocks,Block,Block(m][i].opd, 
nil,maxhash,HashSeq) 
default: i += 1 
esac 
od 
end || Value, Number 


procedure Process, Inst (m,i,nblocks,nblocks,Block,opndi,opnd2, 
maxhash,HashSeq) returns integer 
m, i, nblocks, maxhash: in integer 
Block: inout array [1--nblocks] of array [::] of MIRInst 
opndi, opnd2: in Operand 
HashSeq: inout array [1…maxhash] of sequence of integer 
begin : 
hval, j, retval := 1: integer 
inst := Block[m] [i], inst2: MIRInst 
doit :- true: boolean 
tj: Var . 
hval := Hash(inst.opr,opndi,opnd2) 


图 12-13 在 基本 块 内 执行 值 编号 的 代码 
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for j := 1 to |HashSeq(hval]| do 
inst2 := Block[m] [HashSeq[hval]4j] 
if Match Exp(inst,inst2) then 
|| if expressions have the same hash value and they match, 
|| replace later computation by result of earlier one 
doit :- false 
if Has_Left(inst.kind) then . 
Block[m][i] := <kind:valasgn,left:inst.left, 
opd: (kind: var, val: inst2.left>> 
elif inst.kind € {binif,unif} then 
Block{m] [i] := <kind:valif,opd:<kind:var, 
val:inst2.left>,1bl:inst.1bl> 
elif inst.kind € {bintrap,untrap} then 
Block[m] [i] := <kind:valtrap,opd:<kind: var, 
val:inst2.left>,trapno: inst .trapno> 























fi 





if instruction is an assignment, remove all expressions 
|| that use its left-hand side variable 

if Has_Left(inst.kind) then 

Remove (HashSeq,maxhash, inst .left ,m,nblocks ,Block) 






doit then 
|| if needed, insert instruction that uses result of computation 
if !Has_Left(inst.kind) then 
tj := new. tmp( ) 
if Block[m] [i] .kind € fbinif,unif) then 
` insert after(m,i,ninsts,Block,(kind:valif, 
opd: (kind:var,val:tj?,label:Block[m][i].label) 
retval := 2 
elif Block[m][i].kind € {bintrap,untrap} then 
insert after(m,i,ninsts,Block, 
<kind:valtrap, opd:<kind:var,val:tj>, 
trapno:Block[m] [i] .trapno) 
retval := 2 
fi . 
|| and replace instruction by one that computes 
|| value for inserted instruction 
if opnd2 - nil then 
Block[m][i] := <kind:unasgn,left:tj, 
opr: inst. opr, opd: opndi> 






else 
Block({m] [i] := <kind:binasgn,left:tj, 
opr: inst.opr,opd1:opndi , opd2: opnd2> 









fi 
fi 
HashSeq[hva1] e= [i] 
fi 
return retval 


end || Process_Inst 





图 12-13 (5X) 


2. Match Exp (instl, ins2) XR] true, Ains Fins 2 PHRA UR TEA. 
3. Remove (f, m, v, k, nblocks, Block) 从 f[1. .m] 中 删除 所 有 使 得 Block Ik] [i] 
使 用 变量 v 作 为 操作 数 的 指令 索引 i (参见 图 12-14 关 于 Remove () 的 定义 )。 





250 g1 # 


procedure Remove(f,m,v,k,nblocks,Block) 
f: inout array [1--m] of sequence of integer 
m, k, nblocks: in integer 
v: in Var 
Block: in array [i::nblocks] of array [::] of MIRInst 
begin 
i, j: integer 
for i := 1 to m do 
for j := 1 to |f[i}| do 
case Exp Kind(Block[k][f[i]lj].kind) of 
binexp: if Block[k][f[i]ij].opdi.val = v 
V Block[k][f[i]lj].opd2.val = v then 
fli] e- j 
fi 
unexp: if Block[k][fiilijl.opd.val = v then 
f[i] e- j 
fi 
default: esac 
od 
od 
end || Remove 


图 12-14 从 散 列 函数 的 散 列 链 中 删除 已 杀 死 的 表达 式 的 代码 


作为 Value_Number () 的 例子 ， 考 虚 图 12-15a 的 MIR 代 码 。 设 maxhash = 3。 我 们 初始 化 
HashSeq[1. .3] 为 空 序列 , 并 置 i =1。Block[m] [1] 的 右 端 是 一 个 binexp (二 元 表达 式 )， 
因此 hval 被 设置 成 它 的 散 列 值 ， 比 如 说 2， 并 且 doit =true。HashSeq[2] = [] ， 因 此 我 





. 们 前 进 到 调用 Remove (HashSeq, maxhash, a, m,n，Block) ,这 个 调用 没有 做 什么 事 ， 


因为 散 列 序列 为 空 。 接 下 来 , :因为 doit =true 并 且 Hash_Left (binasgn) -true, KR 
们 将 这 条 指令 的 索引 加 入 到 合适 的 散 列 序列 ， 即 HashSeq[2] = [1]。Proces_Inst() 返 回 
1， 因 此 i 被 设置 为 2。 


a<xvy 











a<xvy a<xvVvy 


be xvy bea bea 
if !z goto L1 ti < !z tl « !z 
x €- !z. df ti goto Li if t1 goto Li 
cexky x «€ !z x < ti 


if x & y trap 30 


c«x&y 
if x & y trap 30 


ce x&y 
if c trap 30 


a) b) c) 





图 12-15 a) 一 个 基本 块 的 例子 ，b) 对 它 的 前 三 条 指令 应 用 和 值 编 号 的 结果 ，c) 对 整个 基本 块 应 用 
值 编号 的 结果 。 注 意 ， 第 3 行 的 if 已 经 被 两 条 指令 所 替代 ， 其 中 第 1 条 指令 
计算 条 件 ， 第 2 条 指令 执行 条 件 分 支 。 


Block [m] [2] 有 一 个 binexp 作 为 它 的 右 端 ， 因 此 hval 被 设置 成 它 的 散 列 值 2， 并 且 
doit=true, HashSeq(2]- [11， 于 是 我 们 调用 Match_Exp () 来 比较 第 1 条 和 第 2 条 指令 
中 的 表达 式 ， 它 返回 true， 所 以 我 们 设置 aoit=false， 计 算 Has_Left (binasgn) ,并 用 
ba 替代 第 2 条 指令 。 之 后 ， 我 们 调用 Remove () 从 所 有 散 列 链 中 删除 所 有 使 用 b 作 为 操作 数 
的 指令 。 因 为 aoit=true， 并 且 指令 2 有 一 个 左 部 ， 因 此 我 们 将 它 的 索引 插入 到 它 的 散 列 序 
列 中 ， 即 Hashseq[2] = [1，2]。 接 着 ， 因 为 doit = false， 故 i 被 设置 为 3， 于 是 我 们 前 进 
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到 第 3 条 指令 。 
Block[ml[3] 有 一 个 unexp (一 元 表达 式 ) 作为 它 的 右 端 ， 此 时 hval1 被 设置 成 它 的 散 列 值 ， 
比如 说 1， JFHdoit-true. HashSeq{1]=[(]HHash_Left(unif) =false. A 


doit=true， 并 且 第 3 条 指令 没有 左 部 ， 我 们 得 到 一 个 新 的 符号 1， 将 指令 “if tl goto 
L1” 插 入 到 指令 3 之 后 ， 这 导致 它 后面 的 指令 需要 重新 编号 ， 用 “t1*… !z” 替 代 指 令 3， 并 插 
入 3 到 它 的 散 列 序列 ， 即 HashSeq[1] = [31]. Proces Inst () 返回 2， 因 此 i 被 设置 为 5， 
然后 我 们 进入 下 一 条 指令 。 产 生 的 基本 块 如 图 12-15b 所 示 。 

Biock[m][5] 有 一 个 unexp 作 为 它 的 右 部 ， 此 时 hval 被 设置 成 它 的 散 列 值 1， 并 且 doit= 
true。HashSeq[1] = [3] ， 所 以 我 们 调用 Match_Exp () 来 比较 在 第 3 条 和 第 5 条 指令 中 的 这 
两 个 表达 式 ， 而 它 返 回 true。 因 为 Hash_Left (unasgn) =true, 我 们 调用 Remove() 从 所 
有 散 列 链 中 删除 所 有 使 用 x 作为 操作 数 的 指令 ， 这 导致 设置 Hashseq[2] = [] 。 因 为 doit= 
true, 并且 指令 5 有 一 个 左 部 ， 因 此 我 们 将 它 的 索引 插入 到 散 列 序列 中 ， 即 HashSeq[1] = 
[3，5]。Proces_Inst() 返 回 !， 因 此 i 被 设置 为 6， 并 且 我 们 继续 处 理 下 一 条 指令 。 

Block[m] [6] 有 一 个 binexp 作 为 它 的 右 部 ， 此 时 hval 被 设置 成 它 的 散 列 值 ， 比 如 说 3， 
JjÉHdoit-true. HashSeq(3]=[], Alb, 我们 跳 过 检查 表达 式 是 否 匹 配 的 循环 。 因 为 
Hash_Left (binasgn) =true, 我 们 调用 Remove () 从 所 有 散 列 链 中 删除 所 有 使 用 c 作 为 操 
作 数 的 指令 。 因 为 aoit =true， 并 且 指令 6 有 一 个 左 部 ， 因 此 我 们 将 它 的 索引 插入 到 它 的 散 
列 序列 中 ， 即 Hashsed[3] = [6]。Proces_Inst() 返 回 !， 因 此 i 被 设置 为 7， 并 且 我 们 进 
入 下 一 条 指令 。 

Block[m] [7] 包含 一 个 binexp, 此 时 hval 被 设置 成 它 的 散 列 值 , 即 3, Hdoit-true. 
HashSeq[3] = [6] ， 所 以 我 们 调用 Match_Exp () 来 比较 在 第 6 条 和 第 7 条 指令 中 的 这 两 个 表 
达 式 ， 它 返回 true。 同 样 ， 我 们 设置 doit = false。 因 为 Hash_Left (binif) =false, 
我 们 用 “if c trap 30” #4ẸBlock[m] [7]。 因 为 4aoit=false， 并且 没有 后 续 指令 ， 
故 处 理 过 程 结 束 。 产 生 的 基本 块 如 图 12-15c 所 示 。 

注意 ， 在 值 编号 和 4.9.3 节 讨论 的 构造 基本 块 的 DAG 表 示 之 间 有 着 强烈 的 相似 之 处 。 在 
DAG 中 ， 重 用 一 个 结 点 作为 操作 数 而 不 是 插入 一 个 具有 相同 值 的 新 结 点 ， 对 应 于 删除 对 相同 
值 的 较 后 计算 并 用 前 面 已 计算 的 值 替代 它们 。 事 实 上 ， 在 构造 DAG 中 频繁 地 使 用 了 值 编号 。 


1242 全 局 值 编号 


最 早 的 全 局 值 编号 方法 是 由 Reif 和 Lewis [ReiL77] 发 明 的 。 一 种 较 新 且 更 容易 理解 、 同 时 
(计算 ) 复杂 性 也 较 小 的 方法 是 由 Alpern、Wegman 和 Zadeck [AlpW88] 开 发 的 。 我 们 的 介绍 基 
于 后 一 种 方法 。 

我 们 首先 讨论 变量 的 重合 表示 。 两 个 变量 是 相互 重合 的 (congruent)， 如 果 定 义 它们 的 计 
算 具 有 相同 的 运算 符 (或 具有 相同 的 常数 值 )， 并 且 它 们 对 应 的 操作 数 是 重合 的 〈 当然， 这 就 
是 值 编 号 要 做 的 事 )。 由 此 定义 ， 只 要 a 和 pb 是 重合 的 ，c a+1 和 db+1 的 左 部 变量 就 是 重合 
的 。 但 是 ， 如 我 们 将 看 到 的 ， 这 个 定义 不 够 准确 。 为 了 使 得 它 更 准确 ， 我 们 需要 将 执行 全 局 值 
编号 的 过 程 转换 为 SSA 形 式 ， 并 定义 结果 流 图 的 所 谓 值 图 。 

为 了 将 流 图 转换 到 SSA 形 式 ， 我 们 使 用 8.11 节 介绍 的 迭代 的 必 经 边界 (dominance frontiers) 
方法 ， 它 产生 过 程 的 最 小 SSA 表 示 。 

过 程 的 值 图 (value graph) 是 一 个 带 有 标志 的 有 向 图 ， 它 的 结 点 上 的 标志 是 运算 符 、 函 数 
符号 或 常数 ， 它 的 边 表示 生成 赋值 ， 并 从 运算 符 或 函数 指向 它 的 操作 数 ; 边 上 标 有 自然 数 ， 它 
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指明 每 一 个 操作 数 相对 给 定 运算 符 或 函数 的 位 置 。 为 了 方便 起 见 ， 我 们 也 用 SSA 形 式 的 变量 来 


命名 结 点 ， 它 们 指明 由 一 个 结 点 所 表示 的 运算 结果 存储 在 何 处 ; 或 
者 ， 当 一 个 结 点 没有 用 SSA 形 式 的 变量 命名 时 ， 我 们 给 它 附加 一 个 


任意 的 名 字 。 


例如 ， 对 于 图 12-16 中 给 定 的 代码 段 ， 它 对 应 的 值 图 (我们 不 需 





要 给 图 中 的 变量 带 下 标 ， 因 为 每 一 个 都 只 有 一 个 定义 点 ) 如 图 12-17 12-16 用 于 构造 值 图 的 


所 示 。 注意 ， 由 前 面 的 定义 ， c 和 d 是 重合 的 。 





一 小 段 程序 代码 例子 


图 12-17 图 12-16 中 代码 的 值 图 


下 面 考虑 图 12-18 中 的 流 图 例子 。 它 的 最 小 SSA 形 式 如 图 12-19 所 示 。 这 个 过 程 的 值 图 含有 
环 路 ， 因 为 ， 例 如 i2 依 赖 于 i3， 并 且 i3 也 依赖 于 i2。 得 到 的 信 图 如 图 12-20 所 示 。 名 字 为 n 的 
[349] 结 点 中 没有 填 结 点 标志 ， 因为 我 们 设 有 关于 其 值 的 信息 。 







receive n(val) 
f Bi 


mx 
N 


图 12-18 值 编号 的 流 图 之 例 









receive ni(val) 
B1 


i3 © $2(il,i2) 
js € ¢2(j1,52) 
i; mod 2 = 0 


B2 






ij < O5(ig,is) | 
ja € $5(ja. j32 
j2 > nhi 


BS 


图 12.19 图 12-18 中 流 图 的 最 小 SSA 形 式 


现在 ， 我 们 可 以 将 重合 (congruence) 定义 为 在 值 图 上 满足 下 列 条 件 的 最 大 关系 ， 即 ， 两 
个 结 点 是 重合 的 ， 如 果 (1) 它们 是 相同 的 结 点 ，(2) 它们 的 标志 是 常数 并 且 它 们 的 内 容 相同 ， 或 
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者 (3) 它们 具有 相同 的 运算 符 ， 并 且 它 们 的 操作 数 是 重合 的 。 两 个 变量 在 程序 点 p 是 等 价 的 
(equivalence)， 如 果 它 们 是 重合 的 ， 并 且 定 义 它们 的 赋值 是 点 p 的 必 经 点 。 


1 © jı 





图 12-20 图 12-19 中 代码 的 值 图 


我 们 计算 重合 关系 为 对 值 图 所 执行 的 划分 处 理 的 最 大 不 动 点 。 一 开始 ， 我 们 假定 具有 相同 
标号 的 所 有 结 点 是 重合 的 ， 然 后 根据 一 个 划分 中 各 个 成 员 的 操作 数 是 否 重合 ， 重 复 地 划分 重合 
类 ， 直 到 得 出 一 个 不 动 点 ， 这 个 不 动 点 由 划分 过 程 的 特点 决定 了 它 一 定 是 最 大 的 。 划 分 算法 
Global_Value_Number(N, Nlabel, Elabel, B) 如 图 12-21 所 示 。 它 使 用 了 下 面 4 种 数据 结构 : 

1. N 是 值 图 的 结 点 集合 。 . 

2. Nlabel 是 映射 结 点 到 结 点 标号 的 函数 。 

3. Elabel 是 从 结 点 到 结 点 的 带 标 号 的 边 集合 。 

4. B 是 由 算法 设置 的 存放 划分 结果 的 数组 。 


NodeLabel = Operator U Function U Var U Const 


















procedure Global. Value Number(N,NLabel,ELabel,B) returns integer 
N: in set of Node | DC 
NLabel: in Node —> NodeLabel 
ELabel: in set of (Node x integer x Node) 
B: inout array [--] of set of Node 
begin . 
i, ji, ki, m, x, 2: Node 
j» K, p: integer 
S, Worklist: set of Node 
{| initialize partitions in B[n] and map nodes to partitions 
p := Initialize(N,NLabel,B,Worklist) 
while Worklist * Ø do 
i := eWorklist 
Worklist -= {i} 
m := eB[i] 
|| attempt to subdivide each nontrivial partition 
|| until the worklist is empty 
for j := 1 to Arity(NLabel,i) do 
ji := Follow.Edge(ELabel,m,j) 


图 12-21 通过 计算 重合 关系 进行 全 局 值 编 号 的 划分 算法 










BENE 2/6 MU 


S := B[i] - {m} 
while S * Ø do 
x := e8 
S -- (x) 
if Follow Edge(ELabel,x,j) * ji then 
pt=1 
Bfp] := {m} 
B[i] -= {m} 
while S + Ø do 


z := 8 
S -= {z} 
for k := 1 to Arity(NLabel,i) do 
ki := Follow Edge(ELabel,m,k) 
if ki * Follow Edge(ELabel,z,k) then 
B[p] v= {z} 


Bf[i] -= {z} 
fi 
od 
od 
if |B[i]! > 1 then 
Worklist u= {i} 
fi 
if |B{p]| > 1 then 
Worklist u= (p) 
fi 
fi 
od 
od 
od 
return p 
end || Global. Value, Number 


图 12-21 (£X) 


这 个 算法 基于 Aho、Hopcroft 和 Ullman [AhoH74] 的 算法 ， 它 使 用 一 张 工作 表 来 存放 需要 考 
察 的 一 组 划分 ， 并 且 使 用 如 下 3 个 函数 : 

1. Initialize(N, NLabel, B, Worklist) 用 值 图 结 点 的 初始 划分 对 B[1] 直到 某 个 B[p] 进 
行 初始 化 ( 即 ， 具 有 相同 标号 的 所 有 结 点 属于 相同 的 划分 )， 用 初始 工作 表 对 Worklist 进 行 初始 
化 ， 并 返回 p 作 为 函数 值 。 

2. Arity (NLabel, j) 3E I B U] 中 运算 符 的 操作 数 个 数 。 

3. Follow_Edge (Elabel，x，j) 返回 一 个 结 点 7y， 此 结 点 有 一 条 带 标 号 的 边 <x,j,y> € ELabel。 

第 1 和 第 3 个 函数 的 代码 如 图 12-22 所 示 。Arity () 的 计算 是 简单 的 。 这 个 划分 算法 最 坏 的 
运行 时 间 是 O(e - log e)， 其 中 e 是 值 图 的 边 数 。 

对 于 图 12-19 中 的 流 图 例子 ， 初 始 划分 的 个 数 p 是 11， 初 始 划 分 如 下 : 





B[1] - {ci1,d1,i1,j1} 
B[2] = (c2,d2) 

B[3] = {co} 

B[4] = {c3} 

B[5] = {n;} 

B[6] = {d3} 


B[7] - {i3,j3} 





前 期 优化 





B[8] 
B[9] 
B[10] 
Bf11] 


B[1] 
B[2] 
B[3] 
B[4) 
B[5] 
Br6] 
Bt7] 


= {i4,j4a,is,js} 
= {i2,j2} 

= {c4} 

= {ty} 


procedure Initialize(N,NLabel,B,Worklist) returns integer 
N: in set of Node 
NLabel: in Node 一 > NodeLabel 
B: out array [::] of set of Node 
Worklist: out set of Node 
begin 
i, k := 0: integer 
v: Node 
|| assemble partitions, node-to-partition map, and initial worklist 
Worklist := Ø 
for each v € N do 
i := 1 
while i < k do 
if NLabel(v) = NLabel(eB[i]) then 
B[i] v= (v) 
if Arity(NLabel,v) > 0 & IB[ill > 1 then 
Worklist v= {i} 
fi 
i 




















:=k +1 



















if i = k+1 then 
k += 1 
Bk] := {v} 
fi 
od 
return k 


end || Initialize 





procedure Follow Edge(ELabel,x,j) returns Node 
ELabel: in set of (Node x integer x Node) 
x: in Node 
j: in integer 
begin 
el: Node x integer x Node 
for each el € ELabel do 
if x = el01 & j = e1@2 then 
return e1@3 
fi 
od 
end || Follow Edge 


| 图 12-22 图 12-21 划 分 算法 使 用 的 辅助 例 程 
Worklist 的 初 值 是 {7，8，9}。 经 划分 处 理 得 到 如 下 12 个 划分 : 


= {ci,di,i1,j1} 
= {c2,d2} 

= {co} 

= {c3} 

= {ni} 

= {d3} 

= {i3,j3} 
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B[8] = {i4,j4} 
B [9] = {i2,j2} 
B[10] = {c4} 
B[11] = {t} 


B2] = {is,js} 

因此 ， 值 图 中 与 1 和 3j 对 应 的 那些 结 点 是 重合 的 ， 而 且 可 以 从 中 确定 出 变量 的 等 价 性 。 
作为 第 二 个 例子 ， 假 设 我 们 将 图 12-18 基 本 块 B4 中 的 赋值 一 i+3 改 变 成 it=i-3 ， 则 除了 名 

FAL, 的 结 点 包含 的 是 “-- ”而 不 是 “+” 之 外 ， 它 的 值 图 与 图 12-20 相 同 。 除 了 p 是 12， 并 且 

B[8] 到 B[11] 用 下 面 的 值 替代 之 外 ， 它 的 初始 划分 也 与 前 面 给 出 的 原来 的 程序 的 初始 划分 相同 。 
B[8] ”= {i4,j4,js} 


B[9] = {is} 
B[10] = {i2,j,} 
B [1 1] 二 {c4} 


B[12] = {t,} 


最 后 得 到 的 划分 结果 是 ， 每 一 个 i,、 ij. 14. is. je js Js 和 3J5 都 位 于 不 同 的 划分 中 。 


Alpem、Wegman 和 Zadeck 讨 论 了 对 这 种 全 局 值 编号 方法 的 一 系列 的 推广 ， 其 中 包括 : 

L 对 要 处 理 的 程序 做 结构 分 析 ( 见 7.7 节 )， 并 利用 为 控制 流 结构 设计 的 特殊 的 ® 函 数 ， 以 
便 能 够 确定 关于 控制 流 的 重合 关系 ; 

2. 通过 用 模拟 将 这 种 方法 应 用 于 数组 运算 ， 例 如， 用 

a + update(a, i, 2 *access(b, i)) 

模拟 

ali] 一 2 * b[il 

3. 考虑 交换 律 ， 以 便 能 够 识别 诸如 axb 和 bxa 是 重合 的 情况 。 

其 中 的 每 一 种 改变 都 能 使 被 检测 出 的 重合 个 数 增加 。 

Briggs、Cooper 和 Simpson 扩 展 了 基于 散 列 的 值 编号 方法 ， 使 其 能 工作 于 例 程 的 必 经 结 点 
树 ， 扩 展 了 前 面 讨论 的 全 局 方法 使 它 考虑 到 表达 式 的 有 效 性 (参见 13.3 节 )， 并 且 对 基于 散 列 
的 值 编号 方法 和 全 局 值 编号 方法 进行 了 比较 ， 它 们 得 出 的 结论 指出 这 两 种 方法 是 不 可 比较 的 一 -每 
一 种 方法 都 存在 优 于 另 一 种 方法 的 情形 。 在 较 后 的 论文 中 ，Cooper 和 Simpson 讨 论 了 一 种 全 局 
值 编 号 方法 ， 这 种 方法 工作 于 例 程 的 SSA 形 式 的 强 连 通 分 量 ， 并 结合 了 散 列 方法 和 全 局 方法 中 
的 优点 ， 因 而 比 这 两 种 方法 都 更 有 效 。 


125 复写 传播 


复写 传播 (copy propagation) 是 一 种 转换 ， 对 于 给 定 的 关于 变量 x 和 y 的 赋值 x~y， 这 种 转 
换 用 ?来 替代 后 面 出 现 的 x 的 引用 ， 只 要 在 这 期 间 没 有 指令 改变 x 或 ?的 值 。 

从 现在 起 ， 我 们 需要 将 过 程 表示 为 由 基本 块 组 成 的 数组 ， 其 中 每 一 个 基本 块 是 一 个 由 指令 
组 成 的 数组 。 我 们 使 用 变量 nblocks、 数 组 ninsts [1. .nblocks] 和 Blockf1. .nblocks][..] 
来 做 复写 传播 。 这 两 个 数组 的 声明 如 下 : | 

nblocks: integer 


ninsts: array [1--nblocks] of integer 
Block: array [1::nblocks] of array [::] of Instruction 


其 中 Block [ 门 由 指令 Block [i] [1] $]B1ock[i] [ninsts [i] ] AR. 
在 继续 详细 讨论 复写 传播 之 前 ， 我 们 先 考虑 它 与 寄存 器 合并 (16.3 节 将 详细 讨论 它 ) 的 关 
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系 。 只 要 优化 针对 的 是 已 经 用 寄存 器 (符号 寄存 器 。 或 真实 的 寄存 器 ) 替代 了 标识 符 的 低级 中 
间 代 码 ， 这 两 种 转换 在 效果 上 就 是 相同 的 。 但 是 ， 判 别 能 否 对 一 个 具体 的 复写 赋值 施加 寄存 器 
合并 或 施加 复写 传播 ， 在 所 采用 的 方法 上 两 者 是 不 同 的 ; 我 们 对 复写 传播 使 用 数据 流 分 析 ， 而 
对 寄存 器 合并 使 用 冲突 图 。 另 一 点 不 同 是 ， 复 写 传播 可 以 在 不 论 高 级 还 是 低级 的 任何 级 别 的 中 
间 代 码 上 进行 。 

例如 ， 给 定 图 12-23a 的 流 图 ， 基 本 块 B1 中 的 指令 b ~ a 是 一 个 复写 赋值 。 在 这 条 指令 之 后 ， 
a 和 b 都 没有 再 被 赋值 ， 因 此 b 的 所 有 使 用 都 可 以 用 a 来 替代 ， 如 图 12-23b 所 示 。 尽 管 这 似乎 不 
会 对 这 上段 代码 有 很 大 的 改善 ， 但 正 是 它 才 使 得 b 成 为 无 用 的 一 -了 +) 图 中 没有 指令 用 它 作为 操作 数 
因此 ， 死 代码 删除 (参见 18.10 节 ) 可 以 删 去 赋值 bp ~a; 并 且 当 a 是 整数 值 时 ， 这 个 替换 还 使 得 
用 移 位 而 不 是 加 法 来 计算 赋 给 e 的 值 成 为 可 能 。 








. 图 12-23 a) 要 传播 的 复写 赋值 之 例 ， 即 BI 中 的 ba，b) 对 它 做 复写 传播 后 的 结果 


复写 传播 可 以 分 为 局 部 遍 和 全 局 遍 来 实现 ， 前 者 在 各 个 基本 块 之 内 操作 ，、 后 者 跨 整 个 流 图 
操作 ; 也 可 以 只 用 单独 一 个 全 局 凯 来 实现 。 为 了 使 其 运行 时 间 在 n 的 线性 范围 之 内 ， 在 图 12-24 
给 出 的 算法 中 ， 我 们 使 用 一 种 有 效 复写 指令 4CP 表 的 散 列 实现 方法 。 此 算法 假定 提供 一 个 由 
MIR 指 令 Block [m] [1], ..., Block[m] [n] 组 成 的 数组 作为 输入 。 


procedure Local Copy Prop(m,n,Block) 
m, n: in integer 
Block: inout array [i-::n] of array [-:] of MIRInst 
begin l 
ACP := Ø: set of (Var x Var) 
i: integer 
for i := 1 to n do 
|| replace operands that are copies 
case Exp Kind(Block[m] [i].kind) of 
binexp: Block [m] [i].opdi.val := Copy.Value(Block[m][i].opdi,ACP) 
Block(m][i].opd2.val := Copy. Value(Block [m] [i].opd2,ACP) 


图 12-24 局 部 复写 传播 的 O(n) 算法 













O 符号 寄存 器 ， 如 在 LIR 中 所 见 的 ， 是 机 器 真实 寄存 器 的 一 种 扩充 ， 它 扩大 真实 寄存 器 的 个 数 同 程序 生成 代码 
所 需要 的 寄存 器 个 数 一 样 多 。 将 符号 寄存 器 装 入 真实 的 寄存 器 是 全 局 寄存 器 分 配 的 任务 ， 分 配 过 程 中 可 能 还 
附带 生成 保护 和 恢复 它们 的 值 的 存 和 取 指令 。 
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unexp: Block[m] [i] .opd.val := Copy Value(Block[m][i].opd,ACP) 
listexp: for j := 1 to IBlock[m][il.args| do 
Block[m) [i] .args!j@i.val := 

Copy. Value(Block[m][i].argsij01,ACP) 

















od. 
default: esac 
|| delete pairs from ACP that are invalidated by the current 
|| instruction if it is an assignment 
if Has Left(Block[m][i].kind) then 
t Remove_ACP (ACP ,Block [m] [i] . left) 
i 
|| insert pairs into ACP for copy assignments 
if Block[m][i].kind = valasgn & Block[m] [i] .opd.kind = var 
& Block[m] [i]s left + Block[m][i].opd.val then 
" ACP v= {<Block[m] [i] .left,Block[m] [i] .opd.val>} 
i 
od 
end || Local. Copy.Prop 
procedure Remove, ACP(ACP, v) 
ACP: inout set of (Var x Var) 
v: in Var 
begin 
T := ACP: set of (Var x Var) 
acp: Var x Var 
for each acp € T do 
if acpel = v V acp@2 = v then 
ACP -= {acp} 











fi 
od 





end || Remove. ACP 
procedure Copy Value(opnd,ACP) returns Var 
opnd: in Operand 
ACP: in set of (Var x Var) 
begin 
acp: Var x Var 
for each acp € ACP do 
if opnd.kind = var & opnd.val = acp@i then 
return acp62 










fi 
od 
return opnd.val 
end 11 Copy. Value 


图 12-24 (4X) 


作为 使 用 所 得 O(n) 算 法 的 一 个 例子 ， 考 虑 图 12-25 中 的 代码 。 第 2 列 给 出 了 在 应 用 此 算法 之 
前 由 5 条 指令 组 成 的 一 个 基本 块 ， 第 4 列 给 出 的 是 应 用 这 个 算法 后 的 结果 ， 第 3 列 给 出 的 是 每 一 
步 的 ACP 值 。 - 

为 了 执行 全 局 复写 传播 ， 我 们 首先 做 数据 流 分 析 ， 以 确定 哪些 复写 赋值 未 受 损害 地 到 达 了 
它们 左 部 变量 的 使 用 ， 即 ， 在 这 中 间 没 有 重新 定义 这 两 个 变量 。 我 们 定义 集合 COPT(GD 由 出 现 
在 基本 块 :中 、 并 到 达 了 基本 块 i 出 口 的 那些 复写 赋值 实例 所 组 成 。 更 准确 地 ，COPY(D) 是 一 个 由 
满足 如 下 条 件 的 四 元 组 <u v, i, pos> 组 成 的 集合 ， 其 中 ,uv 是 一 个 复写 赋值 ，pos 是 此 赋值 
所 在 基本 块 i 中 的 一 个 位 置 ， 并 且 u 和 v 在 基本 块 ! 中 较 后 没有 再 被 赋值 。 我 们 定义 KILL(i) 是 被 基 
本 块 举 死 的 复写 赋值 实例 集合 ， 即 ，KILL(D) 是 满足 后 面条 件 的 四 元 组 <u, v, blk, pos> 组 成 的 集 
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Position Code Before ACP Code After 
有 

1 bea bea 
{<b,a>} 

2 ce bri cf ati 
{<b, a>} 

3 d&b d&a 


{<b,a>),<d, a>} 

4 bedte beatec 
{<d,a>} 

5 bed bea 


{<d,a),<b,a>} 
图 12-25 线性 时 间 局 部 复写 传播 算法 的 例子 


合 ， 其 中 ，& ~ v 是 出 现在 基本 块 bx* i 中 位 置 pos 处 的 一 个 复写 赋值 。 例 如 ， 对 于 图 12-26 中 的 
例子 ，COPYO 和 KILLO 集 合 是 : 


COPY (entry) ø 

COPY(B1) {(d, c, B1, 2)} 
COPY (B2) {(g, e, B2, 2)} 
COPY (B3) à 
COPY (B4) 
COPY (B5) 
COPY (B6) 
COPY (exit) 


KILL(entry) 
KILL(B1) 
KILL(B2) 
KILL(B3) 
KILL(B4) 
KILL(B5) 
KILL(B6) 
KILL(exit) 


PF BATE LF CPinG)fü CPoutG) Bog E. "ETT BAER XUI A EUR H 
对 复写 传播 有 效 的 复写 赋值 集合 。 一 个 复写 赋值 在 基本 块 的 入 口 处 是 有 效 的 ， 如 果 它 从 基本 
块 i 的 所 有 前 驱 出 口 时 是 有 效 的 。 因 此 路 径 合并 运算 符 是 交 运算 。 一 个 复写 赋值 从 基本 块 j 出 口 
时 是 有 效 的 , 如 果 它 属于 COPYO); RE, 它 在 基本 块 j 的 入 口 是 有 效 的 , 且 没 有 被 基本 块 j 杀 死 ， 
即 ， 它 属于 CPinQ) 但 不 属于 KILLO)。 因此 数据 流 方程 是 : 


CPin(i) = ‘a CPout(j) ` 
jePred(i) 


CPout(i) = COPY (i) U (CPin(i) — KILL()) 
并 且 合 适 的 初 值 是 CPin (entry)= 8 ， 且 对 所 有 的 i# entry，CPin(i)=U， 其 中 U 是 四 元 式 全 


Ø 
{(g, e, B2, 2)} 
9 
Ø 
Ø 
9 
{(d, c, B1, 2)} 
9 
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集 ， 或 至 少 有 
U-|[Jcorvo 


全 局 复写 传播 的 数据 流 分 析 可 以 有 效 地 用 集合 的 位 向 量 表示 来 实现 

给 定 了 数据 流 信息 CPin () ， 并 且 假 定 已 经 进行 了 局 部 复写 传播 ， 我 们 按 如 下 所 示 执 行 全 
局 复写 传播 : 

1. 对 于 每 一 个 基本 块 刀 ， 置 AcP= {a€ Var x Var， 其 中 3w € integezr 使 得 <ae1，ae2， 
B, w>€CPin (B)}. 

2. 对 于 每 一 个 基本 块 B， 对 B 执 行 图 12-24 的 局 部 复写 传播 算法 (省略 赋值 ACP : = # )。 





图 12-26 复写 传播 的 另 一 个 例子 
对 于 图 12-26 的 例子 ，CPin ( ) 集合 是 


CPin(entry) = Ø 

CPin(B1) 一 分 

CPin(B2) = ((d, c, B1, 2)} 

CPin(B3) = {(d, c, B1, 2), (g, e, B2, 2)) 

CPin(B4) = {(d, c, B1, 2), (g, e, B2, 2)} 

CPin(B5) = ((d, c, B1, 2), (g, e, B2, 2) 
. CPin(exit) . = ((g, e, B2, 2)} 


对 Bl 做 局 部 复写 传播 和 对 整个 过 程 做 全 局 复写 传播 ， 导 致 图 12-26 的 流 图 转换 成 图 12-27 所 示 的 流 图 。 

局 部 复写 传播 不 难 推 广 到 扩展 基本 块 。 为 了 做 到 这 样 ， 我 们 按 前 序 次 序 处 理 构成 扩展 基本 
块 的 每 一 个 基本 块 ， 前 序 是 每 一 个 基本 块 的 处 理 都 先 于 其 后 继 的 一 种 上 顺序， 并且 对 于 除 初始 基 
本 块 之 外 的 每 个 基本 块 ， 用 来 自 它 的 前 驱 基本 块 的 ACP 表 的 最 终 值 给 它 的 ACP 表 赋 初 值 。 对 应 
地 ， 全 局 复写 传播 算法 也 可 推广 到 以 扩展 基本 块 作为 结 点， 并 且 数 据 流 信息 与 这 种 结 点 相连 。 
为 了 做 到 这 样 ， 我 们 必须 给 扩展 基本 块 的 每 一 个 出 口 相 连 一 个 独立 的 CPout () ， 因 为 经 过 扩展 
基本 块 的 各 条 路 径 一 般 会 有 不 同 的 有 效 复写 赋值 。 
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对 于 图 12-26 的 例子 ， 如 果 我 们 在 局 部 复写 传播 之 后 接着 进行 全 局 复写 传播 (两 者 都 基 
于 扩展 基本 块 )， 其 结果 是 相同 的 ， 但 更 多 的 工作 发 生 在 局 部 阶段 中 。 基 本 块 B2 、B3 BA 
和 B56 组 成 了 一 个 扩展 基本 块 ， 局 部 阶段 将 基本 块 B2 中 赋 给 g 的 值 e 传 播 到 扩展 基本 块 中 的 所 
有 基本 块 。 

注意 ， 全 局 复写 传播 算法 不 会 识别 图 12-28 的 基本 块 B2 和 B3 中 的 两 个 x~y 语 句 是 复写 赋 
值 。 一 种 称 为 尾 融合 的 转换 能 将 这 两 个 复写 赋值 合并 为 一 个 ， 它 实际 上 是 将 这 个 赋值 移 到 只 
有 该 赋值 的 一 个 独立 基本 块 中 。 由 此 复写 传播 便 能 够 识别 它 ， 并 传播 这 个 赋值 到 B4。 但 是 ， 
这 给 某 些 编译 提出 了 一 个 关于 各 个 处 理 遍 的 顺序 问题 : 尾 融 合 一 般 要 到 已 经 生成 机 器 指令 之 
后 才 进行 。 





图 12-27 对 图 12-26 进 行 复写 传播 后 得 到 的 流 图 图 12-28 全 局 复写 传播 没有 检测 
出 来 的 复写 赋值 


一 种 可 选 的 方法 是 ， 利 用 作用 于 赋值 的 部 分 完 余 删除 ( 见 13.3 节 ) 或 代码 提升 ( 见 13.5 节 ) 
方法 来 将 语句 x ~y 的 两 次 出 现 移 到 Bl 中， 而 它们 可 以 与 复写 传播 在 同一 优化 遍 中 进行 。 


12.6 稀有 条 件 常数 传播 


常数 传播 (constant propagation) 是 一 种 转换 ， 对 于 给 定 的 关于 某 个 变量 x 和 一 个 常数 c 的 
赋值 x~c， 这 种 转换 用 c 来 替代 以 后 出 现 的 x 的 引用 ， 只 要 在 这 期 间 没有 出 现 另外 改变 x 值 的 赋 
fA. 例如 ， 在 图 12-29a 基 本 块 B1 中 的 赋值 bp ~ 3 将 常数 3 赋 给 b， 并 且 流 图 中 没有 其 他 对 b 的 赋值 。 
常数 传播 将 此 流 图 转换 为 图 12-29b 所 示 的 情形 。 注 意 ，b 的 所 有 出 现 都 已 被 3 替换 ， 但 都 没有 对 
结果 得 到 的 常数 表达 式 进行 计算 。 这 是 常数 表达 式 计算 (参见 12.1 节 ) 的 工作 。 

对 于 RISC 体 系 结构 ， 常 数 传播 尤其 重要 ， 因 为 它 将 小 整数 移 到 使 用 它们 的 地 方 。 所 有 
RISC 机 器 都 提供 使 用 小 整数 作为 操作 数 的 指令 (“ 小 ”的 定义 随 体系 结构 不 同 而 变化 ) 。 如 果 
知道 一 个 操作 数 是 这 种 小 整数 ， 就 可 以 生成 更 有 效 的 代码 。 此 外 ， 有 些 RISC 机 器 (如 MIPS) 
有 使 用 一 个 寄存 器 和 一 个 小 常数 之 和 的 寻 址 方式 ， 但 没有 使 用 两 个 寄存 器 之 和 的 寻 址 方式 ; 将 
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[362] 常数 值 传播 到 这 种 地 址 结构 既 节 省 了 寄存 器 ， 也 节省 了 指令 。 更 一 般 的 是 ， 常 数 传播 减少 了 过 
程 需要 的 寄存 器 个 数 ， 并 增加 了 其 他 若干 优化 的 效果 ， 这 些 优化 包括 常数 表达 式 计 算 、 归 纳 变 
量 优化 〈14.1 节 )， 以 及 20.4.2 节 讨论 的 基于 依赖 关系 分 析 的 那些 转换 。 





图 12-29 a) 要 传播 的 常数 赋值 的 例子 ， 即 B1 中 的 b 3，b) 对 它 做 常数 传播 后 的 结果 


Wegman 和 Zadeck 描 述 了 两 种 考虑 了 条 件 的 常数 传播 方法 ， 一 种 使 用 SSA 形 式 ， 另 一 种 不 
使 用 [WegZ91]。 我 们 在 这 里 描述 SSA 形 式 的 方法 ， 因 为 它 是 两 种 方法 中 更 有 效 的 一 种 。 这 种 
常数 传播 方法 相对 传统 方法 有 两 个 主要 的 优点 : 它 可 以 由 条 件 推导 出 有 关 信 息 ， 并 且 也 更 为 
有 效 。 

为 了 执行 稀有 条 件 常 数 传播 ， 我 们 必须 首先 将 流 图 转换 为 SSA 形 式 ， 但 有 一 个 额外 的 附 
带 条 件 ， 即 每 一 个 结 点 只 含有 一 种 运算 或 更 函数 。 我 们 使 用 8.11 节 描述 的 迭代 的 必 经 边界 方法 
将 流 图 转换 为 最 小 SSA 形 式 ， 并 划分 基本 块 为 每 个 结 点 一 条 指令 ， 然 后 对 每 一 个 变量 引入 一 
条 将 它 的 惟一 定义 连接 到 它 的 每 一 个 使 用 的 SSA 边 。 这 些 工作 使 得 信息 的 传播 可 以 与 程序 的 
控制 流 无 关 。 

然后 ， 我 们 利用 流 图 的 边 和 SSA 边 来 传递 信息 实现 程序 的 符号 执行 。 在 处 理 过 程 中 ， 仅 当 
结 点 的 执行 条 件 满 足 时 ， 我 们 才 标 志 它们 是 可 执行 的 ， 并 且 在 每 一 步 我 们 只 处 理 那 些 可 执行 的 
结 点 ， 以 及 那些 其 SSA 前 驱 已 经 被 处 理 过 的 结 点 一 一 T 
这 就 是 该 方法 为 什么 是 符号 执行 ， 而 不 是 数据 流 
分 析 的 原因 。 我 们 使 用 图 12-30 画 出 的 格 ， 其 中 每 false'… C5 C, 0 C; C +++ true 
一 个 C; 是 一 个 可 能 的 常数 值 ， 包 含 true 和 false 


是 为 了 提供 关于 条 件 表达 式 结果 的 格 值 。 若 
ValType 表 示 和 集合 {false, ..., C2, Cas Cos Cis 图 12-30 常数 传播 格 constLat 
Cy, ..., true}， 则 这 个 格 叫做 ConstLat。 对 


Ba) “于 程序 中 的 每 一 个 变量 ， 我 们 在 流 图 中 定义 这 个 变量 的 惟一 结 点 的 出 口 处 给 它 相连 一 个 格 值 。 
给 一 个 变量 赋予 值 意味 着 它 有 一 个 还 未 确定 的 常数 值 ， 而 上 则 意味 着 不 是 常数 ， 或 不 能 确 
定 是 常数 。 我 们 用 下 初始 化 所 有 的 变量 。 
为 了 包含 函数 ， 我 们 用 ICAN 扩 充 MIR 的 指令 表示 ， 如 下 所 示 : 


VarNameO — 4 (VarNamel, +, VarNamen) 
<kind:phiasgn, left:VarName0, vars:[VarNamel, ..., VarNamen] > 
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JE X Exp Kind(phiasgn) =listexp#lHas_Left (phiasgn) true. 

我 们 使 用 两 个 函数 Visit_Phi () 和 Visit_Inst() 来 处 理 流 图 的 结 点 。 其 中 第 一 个 函数 
以 一 种 有 效 的 方式 执行 格 值 上 的 更 函数 ， 后 一 个 国 数 对 原来 的 语句 做 同样 的 事 。 

执行 稀有 条 件 常数 传播 的 代码 是 图 12-31 给 出 的 Sparse_conq_const () 。 这 个 算法 使 用 
两 个 工作 表 FlowWL 和 SSAWL，FlowWwL 存 放 需 要 处 理 的 流 图 边 ，SSAWL 存 放 和 需要 处 理 的 SSA 
边 。 数 据 结构 ExecFlag (a, b) 记录 流 图 边 a  b 是 否 是 可 执行 的 。 对 于 每 一 个 SSA 形 式 的 变量 
v， 存 在 着 一 个 格 点 Latce1l1 (v) ， 它 记录 在 定义 变量 v 的 结 点 的 出 口 处 与 这 个 变量 相连 的 格 元 
3X. m SSASucc(n) 记录 结 点 4 的 SSA 后 继 边 ， 即 ， 从 结 点 n 出 发 的 SSA 边 。 附 属 例 程 
Edge Count(). Initialize(), Visit_Phi() 和 Visit_Inst() 的 代码 如 图 12-32 所 示 。 
这 三 个 例 程 用 到 的 另外 4 个 过 程 如 下 : 

1. Exp (inst) 当 inst 是 一 个 赋值 时 抽取 inst 的 右 端 表达 式 ; 或 者 当 inst 是 一 个 测试 时 抽取 inst 
的 测试 体 。 

2. Lat_Eval (inst) 计算 inst 中 的 表达 式 ， 其 中 变量 使 用 Latcell () 中 赋予 的 格 值 。 

3. Edge. Set (k, i, val) 返回 集合 {k 一 让， 如 果 val 是 给 定格 的 一 个 常数 元 素 ， 否 则 返回 5。 

4. Edge. Count (b, EE) 返回 E 中 使 得 e@2 =b 的 可 执行 边 e 的 条 数 。 


LatCell: Var —> ConstLat 


FlowWL, SSAWL: set of (integer x integer) 
ExecFlag: (integer x integer) —* boolean 
Succ: integer —> set of integer 

SSASucc: integer —> (integer x integer) 


procedure Sparse. Cond Const (ninsts, Inst ,E,EL,entry) 
ninsts: in integer 
Inst: in array [1--ninsts] of MIRInst 
E: in set of (integer x integer) 
EL: in (integer x integer) —> enum {Y,N} . 
entry: in integer 
begin 
a, b: integer 
e: integer x integer 
|| initialize lattice cells, executable flags, 
|| and flow and SSA worklists 
Initialize(ninsts,E,entry) 
while FlowWL + Ø V SSAWL * Ø do 
if FlowWL * Ø then 
e := ¢FlowWL; a: i; := e@2 
FlowWL -= {e} E 
|| propagate constants along flowgraph edges 
if !ExecFlag(a,b) then 
ExecFlag(a,b) := true 
if Inst[b].kind = phiasgn then 
Visit Phi(Inst[b]) 
elif Edge Count(b,E) = 1 then 
Visit Inst(b,Inst[b],EL) 
fi 
fi 
fi 
|| propagate constants along SSA edges 
if SSAWL + Ø then 





图 12-31 基于 SSA 的 稀有 条 件 常数 传播 算法 
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e := eSSAWL; a := e01; b := e@2 

SSAWL -= (e) 

if Inst[b].kind = phiasgn then 
Visit. Phi(Inst[b]) 


elif Edge Count(b,E) z 1 then 
Visit, Inst(b,Inst[b],EL) 
fi 
fi 
od 
end 11 Sparse. Cond, Const 


图 12-31 (4%) 


procedure Edge Count(b,E) returns integer 

b: in integer 

E: in set of (integer x integer) 
begin 
|| return number of executable flowgraph edges leading to b 
e: integer x integer 
i := 0: integer 
for each e € E do 

if e02 = b & ExecFlag(e@1,e@2) then 

it=1 





































fi 
od 
return i 
end || Edge. Count 





procedure Initialize(ninsts,E,entry) 
ninsts: in integer 
E: in set óf (integer x integer) 
entry: in integer 

begin 

i, m, n: integer 

p: integer x integer 

FlowWL := (m-»n € E where m = entry) 

SSAWL :- Ø 

for each p € E do 
ExecFlag(p@i,p@2) := false 


od 
for i := 1 to ninsts do 
if Has Left(Inst[i].kind) then 
LatCell(Inst[i].left) := T 
fi 
od 
end || Initialize 


procedure. Visit Phi(inst) 
inst: in MIRInst 


begin 
j: integer 
|| process $ node 
for j := 1 to linst.vars| do 
LatCell(inst.left) n- LatCell(inst.varsij) 
od 





end |! Visit Phi 


图 12-32 用 于 稀有 条 件 常数 传播 的 辅助 例 程 


#12 # 
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procedure Visit. Inst(k,inst,EL) 
k: in integer . 
inst: in MIRInst 
EL: in (integer x integer) —> enum {Y,N} 
begin 
i: integer 
v: Var 
|| process non-¢ node 
val := Lat Eval(inst): ConstLat 
if Has Left(inst.kind) & val * LatCell(inst.left) then 
LatCell(inst.left) n= val 
SSAWL u= SSASucc(k) 
fi 
case Exp Kind(inst.kind) of 
binexp, unexp: 
if val - T then 
for each i € Succ(k) do 
FlowWL v= (ki) 
od 
elif val * 1 then 
if |Succ(k)| = 2 then 
for each i € Succ(k) do 
if (val & EL(k,i) = Y) V (!val & EL(k,i) = N) then 
FlowWL v= (k-i) 
fi 
od 
elif |Succ(k)| = 1 then 
FlowWL v= (k—eSucc(k)) 
fi 
fi 
default: 
esac 
end || Visit. Inst 





图 12-32 (SX) 


我 们 取 图 12-33 中 的 程序 作为 一 个 简单 的 例子 ， 这 个 程序 已 经 是 每 个 结 点 一 条 指令 的 最 小 
SSAJÉX,. SSAWALB1-B3, B2— B3. BA4—B610B5- B6, PRVA, SSASucc (B4) = (BA B5), 
算法 一 开始 设置 FlowWL= {entry 一 Bl1} ，SSAWL= 9$, ， 所 有 ExecFlag () 的 值 为 false， 所 有 
Latcell () 的 值 为 T。 然 后 它 从 FlowWL 中 删除 entry 一 Bl1， 设 置 ExecFlag (entry, B1) = 
true， 并 调用 Visit_Inst (Bl1,“ai 2”)。Visit_Inst() 计 算 这 个 格 中 的 表达 式 2， 设 置 
LatCell(a,) =2 和 SSAWL= {Bl 一 B3}。 主 例 程 然 后 设置 FlowWL = {Bl1 一 B2}。 因 为 SSAWIL 现 
在 不 为 空 ， 主 例 程 从 SSAWL 中 删除 Bi1 一 B3 并 调用 Visit_Inst (B3,“ai<bl”) ， 如 此 等 等 。 结 
果 是 这 些 格 点 被 设置 成 Latcell(al) =2, LatCell(b,) =3, LatCell(c,) =4, 
LatCell(c,) = T, LatCell(c,) =4。 注 意 LatCell (c,) 决 不 会 改变 ， 因 为 算法 判定 从 B3 到 
B5 的 边 不 会 执行 。 这 个 信息 可 用 来 从 流 图 中 删除 基本 块 B3、B5 和 B6。 

作为 第 二 个 例子 ， 考 虑 图 12-34 中 的 程序 。 图 12-35 是 它 的 最 小 SSA 转 换 形 式 ， 其 中 ， 每 一 
个 基本 块 只 有 一 条 指令 。SSA 边 是 B1 B4, B2>B3, B3=B5, B3>B7, B4>B5, B5>B8, 
B5—B11. B6—B7, B6>B8, B6 B9, B6^B10, B7>B10, B7—B4, B9—B118IB12—B3, 
所 以 有 ssAsucc (B5) —(B5-B8, B52B11). MIA 5s iri) DU-T- dH e]. BAM RAI 
如 下 : 
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LatCell(aj) 
LatCell(d;) 
LatCell(dj) 
LatCell(a3) 
` LatCell(fj) 
LatCell(gi) 
LatCell (a2) 
LatCell(f;) 
LatCell(f3) 
LatCell(d2?) 
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图 12-34 用 于 稀有 条 件 常数 传播 的 另 一 个 例子 
结果 代码 (在 用 常数 值 替代 了 那些 变量 ， 并 且 删 除了 不 可 到 达 代码 之 后 ) 如 图 12-36 所 示 。 
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图 12-35 图 12-34 中 程序 的 最 小 SSA 形 式 ， 图 12-36 对 图 12-35 中 的 例 程 做 稀有 条 件 
其 中 每 一 个 基本 块 一 条 指令 常数 传播 后 的 结果 


我 们 用 一 个 语句 而 不 是 一 个 基本 块 作为 结 点 的 惟一 原因 是 为 了 方便 。 很 容易 修改 这 个 算法 
使 其 使 用 基本 块 作为 结 点 一 一 例如 ， 它 仅 需要 我 们 用 基本 块 编号 和 块 内 的 位 置 来 标识 变量 的 定 
义 点 。 

稀有 条 件 常 数 传播 的 时 间 复 杂 度 与 流 图 的 边 数 和 SSA 边 数 有 关 ， 因为 每 一 个 变量 的 值 在 这 
种 格 中 只 能 降低 两 次 ， 因 此 ， 计 算 时 间 复 杂 度 是 O(IE1+1SSA1)， 其 中 SSA 是 SSA 边 集合 ,在 
最 坏 的 情况 下 ， 这 个 值 是 结 点 个 数 的 平方 ， 但 在 实际 中 它 儿 平 总 是 线性 的 。 


12.7 小 结 


在 这 一 章 我 们 开始 讨论 各 种 具体 的 优化 ， 包 括 常 数 表达 式 求 值 ( 常数 折 释 )、 京 合 量 标量 
替代 、 代 数 化 简 和 重 结合 、 值 编号 、 复 写 传播 ， 以 及 稀有 条 件 常 数 传播 。 前 面 三 种 优化 独立 于 
数据 流 分 析 ， 即 它们 不 需要 考虑 是 否 已 经 执行 过 数据 访 分 析 。 后 面 三 种 优化 由 于 效果 和 正确 性 
的 原因 需要 依赖 于 数据 流 分 析 。 
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数组 引用 的 标量 替换 
数据 高 速 缓存 优 化 


过 程 集 成 
尾 调用 优化 ， 包 括 尾 递归 删除 

























过 程 间 常数 传播 
过 程 特殊 化 和 克隆 
稀有 条 件 常数 传播 






局 部 和 全 局 复写 传播 
稀有 条 件 常数 传播 
死 代码 删除 


C1 
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部 分 元 余 删除 






局 部 和 全 局 公共 子 表达 式 删 除 
循环 不 变 代码 外 提 


























归纳 变量 强度 前 弱 
线性 函数 测试 替代 和 i 
归纳 变量 消除 

不 必要 边界 检查 删除 

控制 流 优化 


C4 











尾 融 合 

分 支 优 化 和 条 件 传 送 

死 代码 删除 

.| 软 流 水 ， 附 带 循环 展开 、 变 量 扩张 、 
寄存 器 重 命 名 和 层次 归 约 

基本 块 和 分 支 调 度 1 

图 着 色 寄存 器 分 配 

基本 块 和 分 支 调度 2 

过 程 内 指令 高 速 缓存 优化 

指令 预 取 ' 

数据 预 取 

分 支 预测 


ii are Be | 
过 程 间 指 令 高 速 缓存 优化 


图 12-37 优化 顺序 。 本 章 讨 论 的 那些 优化 用 黑体 字 标 明 


&12* 
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我 们 将 这 些 优化 的 处 理 和 它们 的 意义 概括 如 下 : 

1. 常数 折 又 最 好 构造 成 子 程序 ， 以 便 任何 可 以 从 中 获得 好 处 的 优化 器 都 可 以 调用 它 。 关 和 键 
是 编译 器 的 数据 类 型 模型 和 参与 常数 折合 的 运算 要 与 目标 机 体系 结构 一 致 。 

2. 聚合 量 标量 楚 代 最 好 在 编译 处 理 的 早期 进行 ， 因 为 它 将 那些 通常 不 适合 优化 的 结构 转换 
成 适合 优化 的 结构 。 

3. 代数 化 简 和 重 结合 与 常数 折 秋 一样， 最 好 构造 成 可 随 需 要 调用 的 子 程序 。 对 于 一 大 类 程序 而 

， 地 址 表达 式 的 代数 化 简 和 其 他 作用 于 地 址 的 优化 ， 如 循环 不 变 代码 外 提 ， 属 于 最 重要 的 优化 。 
4. 值 编 号 优化 有 时 容易 与 另外 两 种 优化 ， 即 公共 子 表达 式 删除 和 常数 传播 相 混 淆 ; 值 编号 
的 全 局 形式 也 可 能 与 循环 不 变 代 码 外 提 和 部 分 元 余 删 除 相 混淆 。 这 几 种 优化 都 是 不 同 的 ， 值 纺 
号 的 功能 是 标识 形式 上 等 价 的 表达 式 ， 并 删除 那些 等 价 的 表达 式 的 元 余 计算 ， 从 而 进一步 减少 
后 面 那些 优化 要 处 理 的 代码 量 。 

5. 复写 传播 用 变量 的 复写 值 替换 这 些 变量 的 使 用 ， 再 一 次 地 减少 代码 量 。 

6. 稀有 条 件 常数 传播 用 变量 的 常数 值 替 换 已 判别 出 具有 常数 值 的 变量 的 使 用 。 它 不 同 于 其 
他 需要 数据 流 分 析 的 优化 ， 因 为 它 执行 更 复杂 的 一 种 分 析 ， 即 符号 执行 ， 它 在 分 析 中 利用 值 为 
常数 的 条 件 来 确定 路 径 在 分 析 中 是 否 会 执行 。 

全 局 值 传 播 和 稀有 条 件 常数 传播 两 种 优化 都 针对 SSA 形 式 的 流 图 ， 并 且 从 这 种 形式 中 获 益 
相当 大 一 一 主要 是 ， 前 者 由 于 使 用 了 它 而 成 为 全 局 的 ， 后 者 由 于 使 用 它 而 比 传统 的 全 局 常数 传 
播 更 强大 。 

我 们 将 本 章 讨论 的 这 些 优 化 放置 在 整个 优化 过 程 中 ， 其 优化 顺序 如 图 12-37 所 示 ， 这 些 优 
化 都 用 黑体 字 标 明 。 


12.8 进一步 阅读 


关于 浮 点 算术 的 ANSIIEEE 标 准 见 [IEEE85]。Goldberg 对 该 标准 的 介绍 和 对 它 的 概述 ， 以 
及 有 关 的 讨论 见 [Gold91]。[Farn88] 和 [Gold91] 中 讨论 了 浮 点 值 的 常数 折 释 和 代数 化 简 有 关 的 问 
题 。 关 于 实现 了 聚合 量 标量 替代 的 一 个 编译 器 的 例子 参见 [Much91]。 

最 初 给 出 针对 基本 块 的 值 编号 公式 表示 的 是 [CocS69]。 为 适应 扩展 基本 块 对 它 的 有 关 修 改 
是 在 [AusH82] 中 找到 的 ， 并 且 将 它 扩 充 到 整个 过 程 的 两 种 方法 是 在 ReiL86] 和 [AlpW88] 中 找到 
的 。 在 创建 基本 块 的 DAG 中 使 用 值 编号 的 描述 可 参见 [AhoS86]。 全 局 值 编 号 处 理 中 使 用 的 划 
分 算法 由 Aho、Hopcroft 和 Ullman [AhoH74] 等 人 开发 。Briggs、 Cooper 和 Simpson 关 于 基于 散 列 
的 和 全 局 的 两 种 值 编 号 方法 的 比较 见 [BriC94] 和 [Simp96]， 而 Cooper 和 Simpson 的 针对 强 连 通 分 
量 的 值 编号 方法 见 [CooS95b] 和 [Simp96]。 l 

Wegman 和 Zadeck 的 稀有 条 件 常数 传播 的 介绍 见 [WegZ911]。 关 于 此 算法 中 使 用 的 有 关 符 号 
执行 的 概述 在 [MucJ81] 中 给 出 。 | 


12.9 练习 
12.1 一 种 称 为 循环 剥离 (peeling) 的 转换 通过 在 循环 之 前 插入 循环 体 的 一 个 副本 而 从 该 
循环 中 删除 第 一 个 迭代 。 在 循环 剥离 之 后 对 过 程 体 执行 常数 传播 和 常数 折 鸡 很 容易 
产生 能 够 再 次 应 用 这 三 种 转换 的 代码 。 例 如 ， 下 面 (a) 中 的 MIR 代 码 是 第 一 步 执 行 特 
环 剥 离 后 的 代码 (b) 是 常数 传播 和 常数 折合 转 换 后 的 代码 。 
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12.2 


12.3 


12.4 


12.5 


ADV 12.6 


ADV 12.7 


12.8 
ADV 12.9 


12.10 


#12 # 
m «€ 1 m< 1 
i<i i< 2 
Li: m*m*i Li: m*-m*i 
ie i+i i< i+1 
if i < 10 goto L1 if i s 10 goto L1 


(a) © (b 
第 二 步 循 环 剥 离 后 得 到 下 面 的 代码 (c) ， 最 终 得 到 代码 (d) 。 


m< 2 m < 3628800 
i< 3 i< 11 
Li: m <-m* i 
i<-i+1 
if i s 10 goto L1 
(c) (d) 


假定 不 存在 转向 L1 的 其 他 分 支 。 我 们 怎样 才能 识别 这 种 情况 ? 实际 中 它们 发 生 的 
可 能 性 怎样 ? 

保证 常数 折 释 正确 性 的 关键 是 ， 编 译 时 的 计算 环境 要 与 运行 时 的 环境 一 致 ， 或 者 编 
译 器 模拟 运行 时 的 环境 应 产生 与 运行 时 环境 一 致 的 结果 。 具 体 地 ， 假 设 我 们 正在 
Intel 386 处 理 器 上 编译 一 个 要 运行 于 PowerPC 处 理 器 的 程序 ，Intel 386 处 理 器 在 寄 
存 器 中 只 能 表示 80 位 内 部 浮 点 值 (参见 21.4.1 节 )， 而 PowerPC 处 理 器 只 有 单 精度 和 
双 精 度 格式 (参见 21.2.1 节 )。 这 对 浮 点 常数 折 秋 有 什么 影响 ? 

(a) 写 出 一 个 做 聚合 量 标量 替代 的 ICAN 程 序 。(b) 什么 样 的 情形 很 可 能 不 能 从 这 种 
PEAR HERES? (c) 我 们 如 何 使 得 该 算法 不 对 这 种 情况 进行 处 理 ? 

(a) 用 ICAN 写 出 一 个 规范 器 或 树 转换 器 ， 它 接收 一 棵 树 和 一 组 树 转换 规则 ， 并 对 树 
应 用 这 些 转换 规则 ， 直 到 EAT AREF By 用 为 止 。 假 设 这 些 树 是 用 如 下 定义 的 ICAN 
数据 类 型 Node 表 示 的 : 


Operator = enum {add,sub,mul} 
Content = record {kind: enum {var,const}, 
val: Var U Const) 
Node = record {opr: Operator, 
lt,rt: Content U Node} 


(b) 证 明 当 给 出 的 是 图 12-6 表 示 的 转换 时 ， 对 所 有 的 输入 树 ， 你 的 规范 器 都 会 停止 。 
图 12-13 的 Value_Number () 定 义 中 ， 在 case 语 句 中 是 否 应 当 有 一 个 关于 
1istexp 情 形 的 选择 ?如果 应 当 有 ， 关 于 这 个 选择 的 代码 是 怎样 的 ? 

如 12.4.2 节 末尾 指出 的 ，[AlpW88] 建议 对 要 分 析 的 程序 进行 结构 化 分 析 ， 并 使 用 为 
控制 流 结构 而 设计 的 更 函数 ， 以 便 能 够 确定 关于 控制 流 的 重合 性 。 概 略 地 叙述 你 将 
如 何 扩展 全 局 值 编号 算法 来 包含 这 种 想法 。 

能 否 修改 全 局 复写 传播 以 识别 诸如 图 12-28 的 情形 ? 如 果 能 够 ， 怎 样 修改 ? 如 果 不 
能 ， 为 什么 ? 

修改 (a) 局 部 复写 传播 算法 和 (b) 全 局 复写 传播 算法 ， 以 使 它们 可 工作 于 扩展 基本 块 。 
能 用 类 似 于 稀有 条 件 常数 传播 的 形式 来 表示 复写 传播 吗 ? 如 果 能 这 样 做 ， 我 们 能 得 
到 什么 益处 ?如 果 不 能 ， 为 什么 ? 

修改 稀有 条 件 常 数 传播 算法 ， 以 适应 结 点 是 基本 块 而 不 是 单个 语句 的 情形 。 
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本 章 涉 及 的 所 有 优化 都 与 消除 元 余 计 算 有 关 ， 并 且 都 需要 进行 数据 流 分 析 。 这 些 优 化 可 以 
在 中 级 中 间 代 码 (例如 MIR) 或 低级 中 间 代码 〈 例 如 LIR) 上 进行 。 

第 一 种 优化 是 公共 子 表达 式 删 除 , 它 寻找 那些 在 一 条 已 知 路 径 上 至 少 执 行 两 次 以 上 的 计算 ， 
并 删除 第 2 次 以 及 其 后 出 现 的 那些 计算 。 为 了 定位 宛 余 的 计算 ， 并 保证 实施 元 余 删除 能 对 程序 
性 能 有 所 改善 ， 这 种 优化 需要 进行 数据 流 分 析 。 

第 二 种 优化 是 循环 不 变 代码 外 提 ， 它 寻找 那 种 在 循环 的 每 一 次 迭代 中 总 是 产生 相同 结果 的 
运算 ， 并 将 这 种 计算 移 到 循环 之 外 。 这 种 循环 不 变 代码 尽管 可 以 独立 于 数据 流 分 析 来 确定 ， 但 
一 般 基 于 ud 链 。 这 种 优化 几乎 总 是 能 改善 性 能 ， 且 常常 有 非常 显著 的 效果 ， 这 在 很 大 程度 上 是 
因为 它 发 现 和 移出 的 往往 是 循环 不 变 地 址 计算 ， 以 及 与 访问 数组 元 素 有 关 的 计算 。 

第 三 种 优化 是 部 分 宛 余 删除 ， 它 移动 那些 至 少 是 部 分 元 余 的 计算 〈 即 在 流 图 的 某 条 路 径 上 
多 于 一 次 以 上 的 相同 计算 ) 到 它们 的 最 优 计 算 点 ， 并 完全 删除 那些 宛 余 的 计算 。 它 包含 了 公共 
子 表达 式 删除 、 循 环 不 变 代码 外 提 ， 甚 至 更 多 。 

最 后 一 种 优化 是 代码 提升 ， 它 寻找 那些 从 程序 某 点 开始 的 在 所 有 路 径 上 都 被 执行 的 计算 ， 
并 在 那 一 点 上 将 它们 合并 为 单个 计算 。 这 种 优化 需要 进行 数据 流 分 析 〈 它 有 一 个 有 点 好 笑 的 名 
字 一 一 “非常 忙 表达 式 ” 数 据 流 分 析 )， 它 可 减少 程序 占用 的 空间 ， 但 对 性 能 很 少 有 影响 。 


我 们 决定 在 本 章 既 介绍 公共 子 表达 式 删除 和 循环 不 变 代码 外 提 ， 也 介绍 部 分 元 余 删 除 ， 因 
为 两 种 方法 有 基本 相同 的 效率 和 类 似 的 作用 。 在 几 年 之 前 我 们 还 只 能 介绍 前 一 种 方法 ， 而 仅仅 


提 及 后 一 种 方法 ， 因 为 用 公式 表示 部 分 元 余 删 除 需要 非常 复杂 和 昂贵 的 双向 数据 流 分 析 。 这 里 
介绍 的 现代 公式 消除 了 这 个 问题 ， 并 且 还 提供 了 一 种 思考 和 形式 化 表述 其 他 优化 的 框架 。 我 们 
可 以 相当 肯定 地 断言 ， 即 使 目前 还 没有 使 用 这 种 方法 ， 但 在 不 久 的 将 来 ， 它 会 被 选择 作为 元 余 
删除 的 方法 。 


13.1 公共 子 表达 式 删 除 


程序 中 一 个 表达 式 的 一 次 出 现 是 公共 子 表达 式 (common subexpression) ”， 如 果 存 在 着 
该 表达 式 的 另 一 次 出 现 ， 在 执行 顺序 上 它 的 计算 总 是 先 于 这 个 表达 式 的 计算 ， 并 且 在 这 两 个 计 
算 之 间 该 表达 式 的 操作 数 没 有 发 生 改变 。 图 13-1a 基 本 块 B3 中 的 表达 式 a+2 是 公共 子 表达 式 的 
一 个 例子 ， 因 为 在 基本 块 B1 中 有 一 个 先 于 它 执 行 的 相同 表达 式 ， 并 且 a 的 值 在 这 期 间 没 有 改变 。 
公共 子 表 达 式 删除 (common-subexpression elimination) 是 一 种 转换 ， 它 删除 公共 子 表达 式 的 
重复 计算 ， 并 用 保存 的 值 来 替代 它们 。 图 13-1lb 展 示 了 对 a) 中 代码 进行 转换 的 结果 。 注 意 ， 如 
这 个 例子 所 示 ， 我 们 不 能 简单 地 用 b 替 代 基 本 块 B3 中 a+2 的 计算 ， 因 为 如 果 B2 被 执行 则 改变 了 
b 的 值 。 

回忆 12.4 节 开始 那个 例子 的 有 关 说 明 ， 值 编号 和 公共 子 表 达 式 删除 是 不 同 的 。 


日 ”传统 的 术语 是 “ 子 表达 式 ”"， 而 不 是 “表达 式 ”"， 但 是 这 个 定义 适应 任何 表达 式 ， 而 不 仅仅 是 其 他 表达 式 的 
TRER. 
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图 13-1 a) 一 个 公共 子 表达 式 的 例子 ， 即 其 中 的 a+2 b) 对 它 进行 公共 子 表达 式 删除 后 的 结果 


另外 要 注意 的 是 ， 公 共 子 表达 式 删 除 并 不 总 是 值得 的 。 在 这 个 例子 中 ,重复 计算 a+2 的 代 
价 可 能 较 小 (尤其 是 当 a 和 a 都 分 配 在 寄存 器 中 ， 并 且 加 一 个 小 常数 到 寄存 器 的 操作 只 需 一 拍 
时 )， 而 在 B1 到 B3 之 间 分 配 另外 的 寄存 器 来 存放 t1 的 值 ， 甚 至 将 它 保存 到 存储 器 ， 然 后 重新 
取出 它 ， 这 样 做 的 代价 较 大 。 实 际 上 还 有 一 些 更 为 复杂 的 原因 可 能 导致 不 值得 做 公共 子 表达 式 
删除 ， 这 些 原因 与 充分 发 挥 超标 量 流水 线 功能 ， 或 为 了 从 向 量 或 并 行 机 获得 更 好 的 性 能 有 关 。 
因此 ， 我 们 在 13.1.3 节 讨论 公共 子 表达 式 删 除 的 一 种 道 转换 ， 叫 做 向 前 替代 。 
优化 处 理 常常 将 公共 子 表达 式 删除 分 成 两 遍 ， 一 遍 是 局 部 的 ， 在 每 一 个 基本 块 内 进行 ; 另 
一 遍 是 全 局 的 ， 跨 整个 流 图 进行 。 这 种 划分 不 是 实质 性 的 ， 因 为 全 局 公共 子 表达 式 删 除 能 够 捕 
获 局 部 形式 能 处 理 的 所 有 公共 子 表达 式 ， 甚 至 更 多 ， 但 局 部 形式 可 以 非常 轻易 地 在 构造 基本 块 
中 间 代 码 的 同时 进行 ， 并 且 可 以 使 生成 的 中 间 代码 较 少 。 因 此 ， 我 们 在 下 面 两 小 节 分 别 描述 这 
-两 种 形式 。 
13.1.1 局 部 公共 子 表 达 式 删除 


如 前 面 提 到 的 ， 局 部 公共 子 表 达 式 删除 作用 于 单个 基本 块 ， 并 且 可 以 随 基本 块 的 中 间 代 码 
生成 而 进行 ， 也 可 以 在 之 后 进行 。 为 了 方便 起 见 ， 我 们 假定 已 经 生成 了 MIR 指 令 ， 并 且 它 们 存 
放 在 Block [m] [1. .ninsts[m]] 中。 我 们 的 方法 实质 上 是 记录 可 用 表达 式 (available 
expression), ， 即 那些 迄今 已 在 基本 块 中 计算 过 ， 并 且 从 那 以 后 其 操作 数 没有 被 改变 的 表达 式 ， 
以 及 每 一 个 这 种 表达 式 在 基本 块 中 的 计算 位 置 。 我 们 的 这 种 记录 表示 是 4EB， 一 个 形 如 < pos, 
opd1, opr, opd2, tmp» 的 五 元 组 集合 ， 其 中 pos 是 表达 式 在 基本 块 中 被 计算 的 位 置 ; opd1, opr 和 
opd2 组 成 一 个 二 元 表达 式 ; tmp 是 nil 或 是 一 个 临时 变量 。 

为 了 做 局 部 公共 子 表 达 式 删除 ， 我 们 依次 扫描 基本 块 中 的 指令 ， 往 4EB 中 添加 或 从 中 删除 
适当 的 登记 项 ， 播 入 保存 表达 式 之 值 至 临时 变量 的 指令 ， 并 将 指令 中 对 表达 式 的 使 用 修改 为 对 
临时 变量 的 使 用 。 对 于 每 一 条 在 位 置 i 的 指令 inst， 我 们 判别 它 计算 的 是 否 是 一 个 二 元 表达 式 ， 
然后 根据 情况 执行 下 述 步骤 : 

1. 将 inst 的 操作 数 和 操作 符 与 4EB 中 的 五 元 式 进行 比较 。 如 果 找 到 匹配 的 ， 比 如 说 ，< pos， 
opdl, opr, opd2, tmp» ， 则 检查 tmp 是 否 是 nil1。 如 果 是 ， 则 ， 

(a) 生成 一 个 新 的 临时 变量 #， 并 用 它 替代 所 标识 的 三 元 组 中 的 ni1， 
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(b) 紧 靠 位 置 pos 的 指令 之 前 插入 指令 “fi — opdl opr opd2”， 并 且 

(c) 用 &i 赫 代位 置 pos 和 i 两 处 指令 中 的 这 个 表达 式 。 

如 果 找 到 了 一 个 与 mp = #i 的 匹配 ， 其 中 nil， 我 们 用 #i 替 代 inst 中 的 表达 式 。 如 果 在 AEB 
中 没有 找到 与 inst 的 表达 式 相 匹配 的 ， 则 插入 一 个 关于 该 表达 式 的 五 元 组 到 4EB， 其 中 mp = nil. 

2. 如 果 当 前 指令 有 结果 变量 ， 检 查 它 的 结果 变量 是 否 在 4EB 的 五 元 组 中 作为 操作 数 出 现 。 
如 果 是 ， 从 4EB 中 删除 所 有 这 种 五 元 组 。 l 

实现 这 种 处 理 方法 的 例 程 Local_cSsE () 如 图 13-2 所 示 ， 它 使 用 了 如 下 4 个 另外 的 例 程 : 

1. Renumber (AEB, pos) 根据 需要 对 AEB 中 五 元 组 的 第 一 个 元 素 重新 编号 ， 以 反映 已 插入 
的 指令 。 

2. insert before () 揪 入 一 条 指令 到 基本 块 ， 并 对 块 中 的 指令 重新 编号 ， 使 之 适应 新 插 
入 的 这 条 指令 (参见 4.8 节 )。 

3. Commutative (opr) 返回 true， 如 果 操 作 符 opr 是 可 交换 和 的; 否则 返回 false。 

4. new, temp () 返回 一 个 新 的 临时 变量 作为 其 值 。 


AEBinExp = integer x Üperand x Operator x Operand x Var 


procedure Local. CSE(m,ninsts,Block) 
m: in integer 
ninsts: inout array [::] of integer 
Block: inout array [::] of array [::] of MIRInst 
begin 
AEB := Ø, Tmp: set of AEBinExp 
aeb: AEBinExp 
inst: MIRInst 
i, pos: integer 
ti: Var 
found: boolean 
1 
while i s ninsts{m] do 
inst := Block[m]li] 
found := false . 
case Exp Kind(inst.kind) of 
binexp: Tmp := AEB 
while Tmp * Ø do 
aeb := ¢Tmp; Tmp -= {aeb} 
|| match current instruction's expression against those 
|| in AEB, including commutativity 
if inst.opr = aeb@3 & ((Commutative(aebe3) 
& inst.opd1 = aeb@4 & inst.opd2 = aebe2) 


V (inst.opdi = aeb@2 & inst.opd2 = aeb@4)) then 
pos := aebel 
found := true 
l| if no variable in tuple, create a new temporary and 
|| insert an instruction evaluating the expression 
|! and assigning it to the temporary 
if aeb@5 = nil then 

ti := new tmp( ) 

AEB := (AEB - (aeb)) 

u {<aeb@1 , aeb@2, aeb@3, aebe4,ti>} 
insert before(m,pos,ninsts,Block, 


图 13-2 做 局 部 公共 子 表达 式 删 除 的 例 程 
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<kind: binasgn ,left:ti,opd1:aebe2, 
opr: aeb@3, opd2: aebe4>) 

Renumber (AEB, pos) 

pos += 1 

i += 1 

11 replace instruction at position pos 

|! by one that copies the temporary 

Block[m][pos] := (kind:valasgn,left:Block[m] [pos] .left, 
opd: (kind: var,val:ti>> 








else 
ti := aeb@5 
fi 
|| replace current instruction by one that copies 
|| the temporary ti 
Block [m] [i]. := (kind:valasgn,left:inst.left, 
opd: (kind: var,val:ti>> 
















fi 
od 
if !found then 
|| insert new tuple 
AEB u= {<i,inst.opd1,inst.opr,inst.opd2,nil>} 
fi 
|| remove all tuples that use the variable assigned to by 
|| the current instruction 
Tmp :- AEB 
while Tmp + Ø do 
aeb := eTmp; Tmp -= {aeb} 
if inst.left = aeb@2 V inst.left = aeb84 then 
* AEB -= {aeb} 
fi 
od 










default: 
esac 
i += 1 





od 
end |] Local CSE 


图 13-2 (4) 


作为 此 算法 的 一 个 例子 ， 考 虑 图 13-3 中 的 代码 ， 它 表示 的 是 
在 产生 它们 时 不 执行 公共 子 表达 式 删 除 的 情况 下 生成 的 代码 形 






X. — Fih, AEB- 9 Hi-1. 因为 第 1 条 指令 有 一 个 binexp 1 c«atb 
(二 元 表达 式 )， 且 AEB 为 空 ， 因 此 我 们 将 五 元 组 (1, a, +, b. ; ead 
nil》 加 入 AEB， 并 置 t=2。 第 2 条 指令 也 包含 一 个 binexP; 4 eat 
AEB 中 没有 五 元 组 与 它 相同 ， 因 此 ， 我 们 插入 (2. m,& n, |s ge-b 
nil》 到 AEB 并 置 1=3。AEB 现 在 为 6 herba 
AEB-(«1, a, +, b, nil», 7 ae j+a 
«2, m, &, n, nil») 8 k<mén 
j€b*d 
同样 的 情形 发 生 在 第 3 条 指令 ， 叶 至 10 oan 


AEB=(<1, a, +, b, nil», 
«2, m, & n, nil», 


<3, b, +, d, nil») 图 13-3 例 基本 块 在 局 部 公共 子 
日 it-4。 下 面 我 们 在 位 置 4 遇 到 f.- a+b， 并 发 现 这 个 表达 式 与 表达 式 删除 之 前 


m 
= 


if m & n goto L2 
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&AEB 中 第 1 个 五 元 组 相 匹配 。 于 是 我 们 插入 t1 到 那个 五 元 组 ， 替 代 其 中 的 ni1， 在 位 置 1 之 前 生 
成 指令 t1 a+b， 对 AEB 中 五 元 组 的 位 置 重新 编号 ， 用 c tl 替代 原来 在 位 置 1 而 现在 位 于 位 
置 2 的 指令 ， 设 置 i=5， 并 用 ft1 赫 代 在 位 置 5 的 指令 。 

代码 的 当前 状态 如 图 13-4 所 示 ， 并 且 AEB 的 值 是 


AEBs(«1, a, +, b, tl», 
«3, m, &, n, nil», 
«4, b, +, d, nil») 


接 下 来 我 们 遇 到 的 指令 是 第 6 行 的 g =- -b， 对 它 不 需要 做 什么 。 下 一 条 指令 是 第 7 行 的 hn 一 b+a， 
我 们 识别 出 它 的 右 端 与 AEB 中 的 一 个 五 元 组 相 匹 配 ， 于 是 用 hn 一 t1 替 代 指 令 7。 这 产生 了 图 13-5 
所 示 的 代码 。 接 着 我 们 在 第 8 行 找到 的 指令 是 a j+a， 此 时 我 们 第 一 次 从 AEB 中 删除 一 个 五 元 
H: 结果 变量 a 与 AEB 中 第 1 个 五 元 组 的 第 一 个 操作 数 相 匹 配 ， 因 此 删除 此 五 元 组 ， 由 此 得 到 

AEB={<3, m, &, n, nil», 

«4, b, +, d, nil») 

注意 ， 在 同一 个 迭代 中 我 们 插入 了 关于 j+a 的 一 个 三 元 组 之 后 ， 又 因为 结果 变量 与 两 个 操作 数 
之 一 相 匹 配 而 删除 了 它 。 


ti<a+b 
c «€- ti 
d<mén 
e<btd 
feti 
g € -b 
h<ebta 


tl<atb 
c «- t1 
Q<e mg&Dn 
e<btd 
f «ti 
g € -b 
h< ti 


a<jta 


1 1 
2 2 
3 3 
4 4 
5 5 
6 6 
7 7 
8 8 


a<jta 
k<mén 
jeb+a 
a « -b 


if m & n goto L2 


kemén 
j<bta 
a<-b 


if m & n goto L2 





图 13-4 我 们 的 基本 块 例子 在 删除 第 1 个 局 部 图 13-5 我 们 的 基本 块 例子 在 删除 第 2 个 局 部 
公共 子 表达 式 (第 1、2 和 5 行 ) 之 后 公共 子 表达 式 (第 7 行 ) 之 后 
接 下 来 识别 出 的 公共 子 表达 式 是 图 13-5 中 第 9 行 的 表达 式 m&n, 这 导致 得 到 图 13-6 中 的 代码 ， 
并 且 AEB 的 值 变 成 


AEB={<3, m, &, n, t2», 
«5, b, +, d, nil») 
最 后 ， 第 12 行 的 表达 式 b+d 和 第 13 行 的 表达 式 m&n 被 识别 为 局 部 公共 子 表达 式 (注意 ， 我 们 假 
Em & n 产 生 一 个 整数 值 )。AEB 最 后 的 值 是 
AEB={<3, m, &, n, t2», 
«5, b, +, d, t3») 
并 且 最 终 代 码 如 图 13-7 所 示 。 
这 段 代 码 原来 的 形式 有 11 条 指令 、12 个 变量 ， 并 要 执行 9 个 二 元 运算 ， 而 最 后 的 形式 有 14 
条 指令 、15 个 变量 和 4 个 要 执行 的 运算 。 假 设 所 有 变量 都 在 寄存 器 中 ， 并 且 每 一 个 寄存 器 与 寄 
存 器 的 操作 只 需要 一 拍 ， 就 像 所 有 RISC 和 少数 CISC 机 器 的 情形 一 样 ， 则 原来 的 形式 要 更 好 一 
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些 ， 因 为 它 的 指令 条 数 较 少 ， 使 用 的 寄存 器 也 较 少 。 另 一 方面 ， 如 果 某 些 变量 是 在 存储 器 中 ， 
或 者 执行 这 些 元 余 的 操作 需要 的 时 钟 周期 多 于 一 拍 ， 则 优化 的 结果 更 好 一 些 。 因 此 ， 这 种 优化 
是 否 实际 能 改善 基本 块 的 性 能 取决 于 代码 本 身 和 执行 它 的 机 器 的 情况 。 





ti<a+b 
c< ti 
t2«m&n 
d «- t2 
t3 «€ b«d 
e< t3 
f«ti 
g © -b 
h € ti 


tlea+b 
ceti 
t2«m£&n 
d « t2 
e«b*d 
f <- ti 
g € -b 
h€ ti 


1 
1 2 
2 3 
3 4 
4 5 
5 6 
6 7 
7 8 
8 


ae jr+a 
k «- t2 
j*v*d 
a«- -b 


if m & n goto L2 


a<cjta 
k « t2 
j€ t3 
a < -b 
if t2 goto L2 

图 13-6 我 们 的 基本 块 例子 在 删除 第 3 个 局 部 图 13-7 我 们 的 基本 块 例子 在 删除 最 后 两 个 局 部 

公共 子 表达 式 之 后 公共 子 表达 式 之 后 

通过 散 列 每 一 个 三 元 式 中 的 操作 数 和 操作 符 ， 使 得 当 散 列 值 匹配 时 才 对 实际 的 操作 数 和 操作 
符 进行 比较 ， 可 以 快速 地 实现 这 个 局 部 算法 。 散 列 函 数 的 选择 应 当 能 快速 地 计算 ， 并 且 是 关于 操 
作 数 对 称 的 ， 以 便 高 效 地 处 理 可 交换 性 ， 因 为 可 交换 操作 符 的 出 现 比 不 可 交换 操作 符 更 频繁 。 

这 个 算法 和 后 面 的 全 局 公共 子 表达 式 删 除 算法 都 能 通过 12.3 节 讨论 的 重 结合 转换 而 进一步 
改善 ， 尤 其 是 对 那些 寻 址 算术 ， 因 为 它们 是 最 频繁 出 现 的 公共 子 表达 式 。 
13.12 全 局 公共 子 表达 式 删 除 

如 前 面 指出 的 ， 全 局 公共 子 表 达 式 删除 将 过 程 的 流 图 作为 其 工作 对 象 。 它 解 一 种 称 为 可 用 
表达 式 (available expressions) 的 数据 流 问 题 ， 这 个 问题 在 8.3 节 曾 简单 地 讨论 过 ， 现 在 我 们 详 
细 地 考察 它 。 称 表达 式 exp 在 一 个 基本 块 的 入 口 是 可 用 的 (available)， 如 果 从 入 口 基本 块 到 这 
个 基本 块 的 每 一 条 控制 路 径 上 都 存在 着 对 exzzp 的 计 值 ， 且 该 表达 式 没有 由 于 它 的 一 个 或 多 个 操 
作 数 赋予 了 一 个 新 值 而 被 杀 死 。 

我 们 设计 出 关于 可 用 表达 式 数 据 流 分 析 的 两 个 版 本 。 第 一 个 版 本 简单 地 告诉 我 们 在 每 个 基 
本 块 的 入 口 有 哪些 表达 式 是 可 用 的 。 第 二 个 版 本 告诉 我 们 这 些 表达 式 在 何 处 被 求 值 ， 即 在 哪个 
基本 块 的 哪个 位 置 被 求 值 。 我 们 之 所 以 给 出 两 种 版 本 是 因为 在 优化 研究 中 ， 对 于 使 用 数据 流 方 
法 来 确定 计算 点 是 否 是 最 好 的 方法 存在 着 不 同 的 观点 ,例如 , 关于 这 样 做 不 是 最 好 的 一 种 意见 ， 
可 参见 [AhoS86] ，P.634。 

在 确定 什么 样 的 表达 式 是 可 用 的 过 程 中 ， 我 们 使 用 EVAL(i) 表 示 在 基本 块 i 中 被 计 值 ， 并 且 
在 基本 块 出 口 处 仍然 可 用 的 表达 式 集合 ，KILL(i) 表 示 由 基本 块 : 杀 死 的 表达 式 集合 。 为 了 计算 
EVAL(D， 我 们 从 基本 块 开始 扫描 到 基本 块 末尾 ， 收 集 在 块 内 计算 的 表达 式 ， 并 删除 那些 其 操 
作 数 在 基本 块 中 后 来 又 被 赋予 了 新 值 的 表达 式 。 对 于 一 个 形 如 a ~ a+b 的 赋值 表达 式 ， 它 的 左 
端 变量 也 作为 右 端的 操作 数 出 现 , 我 们 不 创建 一 个 可 用 变量 , 因为 赋值 发 生 于 表达 式 计 值 之 后 。 
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对 于 图 13-3 中 的 基本 块 例子 ，EVALO 集 合 是 {tm&n，b+d}。 

这 个 基本 块 也 计算 了 表达 式 a+b， 但 此 表达 式 随 后 被 a ~ j+a 的 赋值 所 杀 死 ， 因 此 它 不 在 
这 个 基本 块 的 EVAL ( ) 集合 中 。KILLGi) 是 那 种 在 其 他 基本 块 中 计 值 ， 但 它 的 一 个 或 多 个 操作 数 
在 基本 块 i 中 被 赋值 的 所 有 表达 式 的 集合 。 为 了 给 出 KILL () 集合 的 一 个 例子 ， 需要 有 一 个 完整 
的 流 图 9 ， 因 此 ， 我 们 考虑 图 13-8 中 的 流 图 。 这 个 基本 块 的 EVAL(i) 和 KILL(i) 集 合 如 下 : 


EVAL(entry) = 0 KILL(entry) — 0 

EVAL(B1) = {atb,atc,d*d} KILL(B1) = (c*2,c>d,a*c,d*d,i+1,i>10} 
EVAL(B2) = {atb,c>d} KILL(B2) = {a*c,c*2} 

EVAL(B3) = {akc} KILL(B3) =ø 

EVAL(B4) = {d*d} KILL(B4) = 

EVAL(B5) = {i>10} KILL(B5) - 

EVAL(exit) = 6 KILL(exit) = 0 


B1 








fli] — a+b 

Ce c*2 B2 
c» 

* c 


d 
N 
(sii e aed] m 


B5 


图 13-8 用 于 全 局 公共 子 表达 式 删除 的 流 图 例子 


现在 ， 数 据 流 分 析 的 方程 组 可 以 构造 如 下 。 这 是 一 个 向 前 流 问题 。 我 们 分 别 使 用 4Ein(D 和 
4Eoxt(D 表 示 在 基本 块 ; 信 口 和 出 口 可 用 的 表达 式 集合 。 一 个 表达 式 在 基本 块 人 口 是 可 用 的 ， 如 
果 它 在 该 基本 块 的 所 有 前 驱 基本 块 的 出 口 处 是 可 用 的 ， 因 此 路 径 合 并 运算 是 集合 的 交 。 一 个 表 
达 式 在 基本 块 出 口 是 可 用 的 ， 如 果 它 在 基本 块 内 被 计 值 ， 并 且 随 后 没有 被 杀 死 ， 或 者 它 在 基本 
块 入 口 是 可 用 的 ,并且 在 基本 块 内 没有 被 杀 死 。 因 此 ， 数 据 流 方 程 组 是 

AEin(i) = () AEout(j) 

jePred(i) 
AEout(i) = EVAL() U (AEin(i) — KILL(i)) 


O ”实际 上 并 不 完全 是 这 样 。 我 们 可 以 用 这 个 基本 块 中 被 赋 过 值 的 变量 集合 来 表示 它 。 但 这 样 做 会 相当 低 效 ， 
为 它 会 是 变量 集合 ， 而 EV4L() 是 表达 式 集 合 。 这 样 的 话 ， 利 用 位 向 量 运算 来 实现 数据 流 分 析 即 使 再 好 也 仍 
很 笨拙 。 
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在 解 这 个 数据 流 方程 时 ， 对 所 有 的 基本 块 i， 我 们 初始 化 4Ein(i) = U,,,, PU... 可 以 取 所 有 表 
达 式 的 全 集 ， 或 不 难 证 明 ， 取 
Uexp = U EVAL() 


就 足够 了 9 。 
对 于 图 13-8 的 例子 ， 我 们 采用 
Us={at+b, a*c, d*d, c>d, i>10} 
工作 表 进 代 的 第 一 步 产生 
AEin(entry)= @ 


B AR RPE 
AEin(B1)= Ø 

接 下 来 我 们 计算 
AEin(B2) = (atb,a*c,d*d] 
AEin(B3) = {at+b,d*d,c>d} 
AEin(B4) = {atb,d*d,c>d} 
AEin(BS) = (a*b,d*d,c»d) 


AEin(exit) = {atb,d*d,c>d,i>10} 

并 且 再 继续 迭代 不 会 产生 进一步 的 变化 。 

下 面 我 们 讲述 如 何 利 用 4Ein0 数 据 流 函 数 执行 全 局 公共 子 表达 式 删 除 。 为 了 简单 起 见 ， 我 
们 假定 已 经 进行 过 局 部 公共 子 表 达 式 删除 ， 因 此 一 个 表达 式 只 有 在 基本 块 中 的 第 一 个 计 值 是 全 
局 公共 子 表 达 式 删除 的 候选 对 象 。 我 们 的 处 理 过 程 如 下 : 

1. 确定 exp 在 基本 块 i 中 的 第 一 个 计 值 的 位 置 。 

2. 从 这 个 第 一 次 出 现 向 后 搜索 ,确定 exp 是 否 有 任何 操作 数 已 在 此 基本 块 中 前 面 某 处 被 赋值 。 
如 果 有 ，exp 的 这 个 出 现 不 是 全 局 公共 子 表达 式 ; 适当 前 进 到 另 一 个 表达 式 或 另 一 个 基本 块 。 

3. 一 旦 找到 exp 在 基本 块 i 中 的 第 一 次 出 现 ， 并 判断 出 它 是 一 个 全 局 公共 子 表达 式 ， 便 在 流 
图 中 向 后 搜索 寻找 exp 的 这 样 一 种 出 现 : 它们 出 现 的 形式 为 vexp， 且 使 得 表达 式 exp 属 于 
AEin(i)。 这 是 一 些 在 它们 各 自 基本 块 中 最 后 出 现 的 exp; 它们 中 的 每 一 个 都 一 定 没有 改变 地 流 
向 基本 块 i 的 入 口 ; 并 且 从 entry 基 本 块 到 基本 块 ; 的 每 一 条 通路 都 一 定 至 少 包含 它们 中 的 一 个 。 

4. 选 择 一 个 新 的 临时 变量 jy。 用 # 笨 代 在 基本 块 ;中 使 用 exp 的 第 一 条 指令 ins! 中 的 此 表达 式 ， 并 用 

tj — exp 

Replace(inst, exp, tj) 

替代 第 3 步 标识 出 的 使 用 exp 的 每 一 条 指令 ， 其 中 Replace(inst exp, tji Bl Ht T exp 
的 指令 inst。 

图 13-9 给 出 了 一 个 名 为 Global_csE () 的 实现 这 个 算法 的 例 程 。 例 程 Find_sSources () 
定位 全 局 公共 子 表达 式 的 源 出 现 点 ， 并 返回 由 基本 块 编号 和 该 基本 块 内 的 指令 编号 组 成 的 偶 对 
集合 。 例 程 insert_after () 与 4.8 节 的 描述 相同 。 例 程 Replace_Exp (Block, i, j, tj) 用 一 
条 使 用 了 opd:<kina:var，val :> 的 指令 替代 基本 块 Block [i] 中 中 的 这 条 指令 ， 即 它 用 
对 应 的 valasgn 替 代 binasgn， 用 valif 替 代 binif， Avaltrap#ftbintrap. 


日 ”如 果 我 们 没有 一 个 无 进入 边 的 特殊 的 entry 结 点 ， 就 会 需要 初始 化 4Einlentry) = 9 ， 因 为 在 这 种 流 图 的 
入 口 没有 表达 式 是 可 用 的 ， 而 进入 初始 结 点 的 边 会 导致 在 此 方程 的 解 中 入 口 基本 块 的 AEin O 非 空 。 
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BinExp = Operand x Operator x Operand 


procedure Global CSE(nblocks,ninsts,Block,AEin) 
nblocks: in integer 
ninsts: inout array [1--nblocks] of integer 
Block: inout array[1--nblocks] of array [--] of MIRInst 
AEin: in integer —* BinExp 
begin 
i, j, k: integer 
1, tj: Var 
S: set of (integer x integer) 
s: integer x integer 
aexp: BinExp 
for i :- 1 to nblocks do 
for each aexp € AEin(i) do 
j := 1 
while j < ninsts[i] do 
case Exp Kind(Block[il[jl.kind) of 
binexp: if aexp@1 = Block[i][j].opdi 
& aexp@2 = Block[i][jJ.opr 
& aexp@3 = Block[i] [j].opd2 then 
for k := j-1 by -1 to 1 do 
if Has_Left (Block [i] [fk] .kind) 
& (Block[i][k].left = aexpei.val 
V Block[il[k].left = aexp@3.val) then 
goto Li 
fi 
od 
S := Find Sources(aexp,nblocks,ninsts,Block) 
tj := new tmp( ) 
Replace Exp(Block,i,j,tj) 
for each s € 5 do 
1 := Block[s01] [s@2] . left 
Block[s@1] [s@2] .left := tj 
insert after(s01,502,ninsts,Block, 
(kind:valasgn,left:1, 
opd: <kind: var ,val:tj>>) 
j+=1 
























od 

fi 

default: esac . 

Li: j+=1 

od 
od 
od 

end || Global_CSE 





图 13-9 实现 我 们 的 第 一 种 全 局 公共 子 表达 式 删 除 处 理 的 例 程 


选择 适当 的 数据 结构 可 以 使 得 这 个 算法 的 运行 时 间 为 线性 的 。 

在 图 13-8 的 例子 中 ， 满足 全 局 公共 子 表达 式 标准 的 第 一 个 表达 式 是 基本 块 B2 中 的 ar+p。 从 
它 向 后 搜索 ， 我 们 找到 B1 中 的 指令 ca+b， 用 

tl «a+b 


c —- tl 


替代 它 ， 并 用 f [i] ~t1 赫 代 基本 块 B2 中 的 那 条 指令 。 类 似 地 ， 基本 块 B4 中 出 现 的 +d 满足 该 
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标准 ， 因 此 ， 我 们 用 g [i] ~ 上 2 替代 它 的 出 现 所 在 的 这 条 指令 ， 并 用 

t2 «a*a 

er t2 
替代 基本 块 B1 中 定义 该 表达 式 的 赋值 。 结 果 如 图 13-10 所 示 。 

通过 将 程序 中 出 现 的 表达 式 集合 映射 到 从 0 开 
始 的 一 列 连续 整数 ， 其 中 每 个 整数 依次 与 位 向 量 
中 的 一 个 位 置 相 对 应 ， 便 可 以 有 效 地 实现 全 局 CSE 
算法 。 集 合 运算 直接 转化 为 对 位 向 量 的 按 位 逻辑 
运算 。 

实现 全 局 公共 子 表达 式 删 除 的 第 二 种 方法 既 
判定 可 用 表达 式 ， 同 时 对 于 每 一 个 潜在 的 公共 子 
表达 式 ， 也 确定 它 的 出 现 点 一 一 即 基本 块 和 基本 块 
中 的 位 置 。 这 是 通过 修改 数据 流 分 析 ， 使 之 能 处 
理 各 个 表达 式 的 出 现 来 实现 的 。 我 们 定义 EVALPQi) 
是 由 三 元 组 <exp, i, pos> 组 成 的 集合 ， 其 中 exp 是 
表达 式 ，i 是 基本 块 的 名 字 ，pos 是 一 个 表示 基本 块 
中 位 置 的 整数 ， 并 且 exp 在 基本 块 中 位 置 pos 处 被 
计 值 ， 且 在 基本 块 出 口 仍 然 可 用 。 我 们 定义 
KILLP(i) 是 由 三 元 组 «exp, blk, pos» 组 成 的 集合 ， 
其 中 exp 满 足 KILL(i) 的 条 件 ，blk 和 pos 是 值 域 为 定 
义 exp 的 基本 块 和 位 置 的 偶 对 ， 但 不 包括 基本 块 i。 
最 后 ， 我 们 定义 

AEinP(i) = 们 AEoutP(j) 图 13-10 图 13-8 的 流 图 例子 在 公共 子 

/ee 表达 式 删除 之 后 的 流 图 

AEoutP(i) = EVALP(i) U (AEinP(i) — KILLP(i)) 

初始 值 与 前 面 数 据 流 方程 组 的 初始 值 类 似 : 对 于 所 有 的 i，AEinP(i)=U， 其 中 U 被 适当 地 
修改 成 包含 位 置信 息 。 

现在 ， 对 于 图 13-8 的 例子 ， 我 们 有 下 述 EVALPO 和 KILLPO 集 合 : 


EVALP(entry) =Ø 
EVALP(B1) ={ 
EVALP(B2) ={ 
EVALP(B3) = {( 
= {( 
={ 












fli] «€ ti 
ce c*2 
cod 


B2 


B4 


eare] 





(a*tb,B1,1),(a*c,B1,2),(d*d,B1,3)) 
(atb ,B2,1),(c>d,B2,3)} 

a*c,B3,1)] 

(d*d,B4, 1)} 

(i>10,B5,2)} 

Ø 


EVALP(B4) 
EVALP(B5) 
EVALP(exit) 


KILLP(entry) =Ø 
KILLP(B1) = {(c#2,B2,2),(c>d,B2,3),(akc,B3, 1),(d*d,B4, 1), 
{i+1,B5,1),(i>10,b5,2)} 


KILLP(82) = ((a*c,B1,2),(a*c,B3,1),(c*2,B2,2)] 
KILLP(B3) =ø 
KILLP(B4) =ø 
KILLP(BS) =ø 


KILLP(exit) =@ 
并 且 执 行 数据 流 分 析 的 结果 如 下 : 
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AEinP(entry) =Ø 

AEinP(B1) =ø 

AEinP(B2) = {(a+b,B1,1),(d*d,B1,3)} 

AEinP(B3) = ((a*b,B1,1),(d*d,B1,3),(c»d,B2,3)) 

AEinP(B4) = {(a+b,B1,1),(a#d,B1,3),(c>d,B2,3)} 

AEinP(B5) = ((a*b,B1, 1),(d*d,B1,3),(c>d,B2,3)} 
AEinP(exit) = {(atb,B1,1),(d*d,B1,3),(c>d,B2,3),(i>10,B5,2)} 


于 是 已 标识 出 了 每 一 个 公共 子 表达 式 的 可 用 表达 式 实例 ， 因 而 不 需要 再 在 流程 图 中 搜索 它们 。 我 
们 这 个 例子 流 图 的 转换 过 程 同 前 面 一 样 ， 除 了 算法 更 简单 以 外 ， 没 有 其 他 变化 ， 具 体 过 程 如 下 。 

对 于 每 一 个 基本 块 i 和 在 基本 块 i 中 计 值 ， 且 对 某 个 bk 和 pos， 有 (exp. blk, pos) € AEinPG) 
的 表达 式 exp，、 进 行 如 下 处 理 : 

1. 确定 exp 在 基本 块 i 中 的 第 一 次 计 值 出 现 的 位 置 。 

2. 从 exp 的 这 个 第 一 次 出 现 向 后 搜索 ， 确 定 在 此 基本 块 中 exp 是 否 有 已 在 前 面 被 赋值 的 任何 
操作 数 。 如 果 有 ，exp 的 这 个 出 现 不 是 全 局 公共 子 表达 式 ; 根据 情况 前 进 到 另 一 个 表达 式 或 另 
一 个 基本 块 。 

3. 一 旦 找到 exp 在 基本 块 i 中 的 第 一 次 出 现 ， 并 判断 出 它 是 一 个 全 局 公共 子 表达 式 ， 则 令 
(exp, blky, pos1) ，..….，《exp, blk, pos,) 是 hAEinPO) 中 以 ezp 作 为 其 表达 式 部 分 的 那些 元 素 。 它 们 
中 的 每 一 个 是 对 exp 求 值 的 一 条 指令 inst。 

4. 选择 一 个 新 的 临时 变量 厄 。 用 替代 基本 块 i 中 已 标识 出 的 exp 的 出 现 ， 并 用 

tj = exp 

Replace(inst, exp, tj) 

将 代 每 一 条 已 标识 出 的 在 基本 块 bl tt pos, 计算 exp 的 指令 inst。 

图 13-11 给 出 了 一 个 实现 第 二 个 算法 的 名 为 SGlopal_cSE_Pos () 的 例 程 。 它 使 用 的 例 程 
Coalesce. Sets () 在 同一 个 图 中 给 出 。 例 程 insert_after() 和 Replace () 与 图 13-9 中 的 
相同 。 

























BinExp = Operand x Operator x Operand 
BinExpIntPair = BinExp x integer x integer 
BinExpIntPairSet - BinExp x set of (integer x integer) 


procedure Global.CSE. Pos (nblocks ,ninsts,Block,AEinP) 
nblocks: in integer 

ninsts: inout array [1--nblocks] of integer 
Block: inout array[i::nblocks] of array [::] of MIRInst 
AEinP: in integer —> BinExpIntPairSet 


begin 
i, j, k: integer 
tj, v: Var 


s: integer x integer 
inst: MIRInst 
aexp: BinExpIntPairSet 
AEinPS: integer —> BinExpIntPairSet 
AEinPS .:= Coalesce Sets(nblocks,AEinP) 
for i := 1 to nblocks do 
for each aexp € AEinPS(i) do 

于 := 1 

while j < ninsts[i] do 
inst := Block[illj] 


图 13-11 实现 我 们 的 第 二 种 全 局 公共 子 表达 式 删除 方法 的 例 程 
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case Exp Kind(inst.kind) of 
binexp: if aexp0101 = inst.opdi & aexp0102 = inst.opr 
- & aexp0103 = inst.opd2 then 
for k :- j-1 by -1 to 1 do 
if Has_Left (inst .kind) 
& (inst.left = aexp0101.val 
V inst.left = aexpe1e3.val) then 
goto L1 
fi 
od 
tj := neu tmp( ) 
Replace Exp(Block,i,j,tj) 
for each s € aexp@2 do 
v := Block[s01] [s02] . left 
Block[s@1] [s02] .left := tj 
insert_after(s@1,s8@2,<kind:valasgn,left:v, 
opd: (kind: var,val:tj>>) 
j+1 


default: 
L1: 


end |! Global_CSE_Pos 


procedure Coalesce Sets(n,AEinP) returns integer —> BinExpIntPairSet 


n: in integer 
AEinP: in integer —> set of BinExpIntPair 
begin 
AEinPS, Tmp: integer —> BinExpIntPairSet 
i: integer 
aexp: set of BinExpIntPair 
a, b: BinExpIntPairSet 
change: boolean 
for i := 1 to n do 
AEinPS(i) := Ø 
for each aexp € AEinP(i) do 
AEinPS(i) v= ((aexpe1,((aexp02,aexp035)5) 
od 
Tmp(i) := AEinPS(i) 
repeat 
change := false 
for each a € AEinPS(i) do 
for each b € AEinPS(i) do 
if a * b & a01 = bel then 
Tmp(i) := (Tmp(i) - {a,b}) u {<a@1,a@2 u be2>} 
Change := true 
fi 
od 
od 
until !change 
od 
return Tmp 
end || Coalesce_Sets 





图 13-11 (£&) 
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通过 将 程序 中 有 关 表 达 式 出 现 的 三 元 组 集合 映射 到 一 列 从 0 开始 的 连续 整数 ， 其 中 每 一 个 
整数 依次 与 位 向 量 中 的 一 个 位 置 相对 应 ， 便 可 以 有 效 地 实现 全 局 CSE 算 法 。 集 合 运算 直接 转化 
为 对 位 向 量 的 按 位 逻辑 运算 。 

通过 将 单独 一 条 指令 作为 流 图 的 结 点 ， 可 以 使 局 部 和 全 局 公共 子 表达 式 删 除 合并 为 一 遍 。 尽 管 这 
种 方法 是 可 行 的 ， 但 一 般 并 不 希望 这 样 做 ， 因 为 它 会 使 得 数据 流 分 析 的 代价 比 上 面 介绍 的 分 开 的 方法 
要 高 出 很 多 。 相 反倒 是 可 以 使 用 更 大 的 单位 : 局 部 和 全 局 分 析 与 优化 都 可 以 在 扩展 基本 块 上 进行 。 

另外 ， 局 部 和 全 局 公共 子 表达 式 删 除 可 以 重复 地 进行 ， 如 果 将 它们 与 复写 传播 和 /或 常数 传播 
结合 起 来 ， 能 获得 额外 的 好 处 。 作 为 一 个 例子 ， 考 虚 图 13-12a 中 的 流 图 。 对 它 进行 局 部 公共 子 表 
达 式 删除 使 得 基本 块 B1 变 成 如 图 13-12b 所 示 。 全 局 公共 子 表达 式 删 除 用 临时 变量 替代 了 基本 块 B2 
和 B4 中 a+b 的 出 现 ， 产 生 了 图 13-13a 的 流 图 。 接 着 局 部 复写 传播 用 t3 赫 代 基 本 块 B1 中 tl 和 t2 的 
使 用 ， 得 到 图 13-13b。 最 后 ， 全 局 复写 传播 用 t3 赫 代 基 本 块 B2、B3 和 B4 中 c 和 ad 的 出 现 ， 由 此 得 








图 13-12 公共 子 表达 式 删 除 与 复写 传播 的 结合 ;a) 原来 的 流 图 ，b) 局 部 公共 子 表达 式 删除 后 的 结果 





图 13-13 公共 子 表达 式 删 除 与 复写 传播 的 结合 (图 13-12 的 继续 ): 
a) 全 局 公共 子 表 达 式 删除 后 ，b) 局 部 复写 传播 后 





2 


392 男 一 方面 ， 对 于 任意 n， 我 们 不 难 构造 一 个 通过 重复 这 些 优化 n 次 而 获 益 的 例子 。 尽 管 有 这 
394| ”种 可 能 ， 但 在 实际 中 几乎 从 不 出 现 .。 


13.1.3 向 前 替代 


向 前 替代 (forward substitution) 是 公共 子 表 
达 式 删除 的 逆转 换 。 与 用 一 个 复写 操作 替代 一 个 
表达 式 计 算 相 反 ， 它 用 重新 计算 该 表达 式 替 代 一 
个 复写 。 尽 管 看 起 来 公共 子 表 达 式 删除 总 是 值得 
的 一 一 因为 它 似乎 减少 了 要 执行 的 运算 次 数 一 一 但 
实际 并 不 一 定 是 这 样 ; 而 且 即 使 是 这 样 ， 它 也 不 
一 定 肯定 有 利 。 具 体 地 ， 不 希望 这 样 做 的 一 个 最 
简单 的 情形 是 ， 为 了 保存 一 个 表达 式 的 值 而 导致 
一 个 寄存 器 被 长 时 间 占 用 ， 从 而 减少 了 其 他 用 途 
的 可 用 寄存 器 个 数 时 ; 或 者 一 一 而 这 可 能 更 坏 ， 
当 这 个 值 由 于 没有 可 用 的 寄存 器 而 被 放 到 内 存 中 ， 图 13-14 公共 子 表达 式 删 除 与 复写 传播 的 结合 
并 且 需 要 重新 装 入 它 时 。 例 如， 考虑 图 13-15 中 的 ”( 图 13-13 的 继续 ): 全 局 复写 传播 后 。 注 意 ， 现 
代码 。a) 中 的 代码 在 从 B1 到 B2 的 边 上 需要 2 个 寄 在 死 代码 删除 已 能 够 删除 基本 块 B1 中 的 赋值 t2 
存 器 (用 于 a 和 b)， 而 b) 中 的 代码 ， 它 是 金 局 公 。“ 蕊 和 t1 ~t3， 并 且 代 码 提升 (13:55) SERE 
共 子 表达 式 删 除 的 结果 ， 需 要 3 个 寄存 器 (用 于 a、 将 t3+t3 的 两 个 计算 移 到 基本 块 B1 
b 和 t1)。 

取决 于 编译 器 的 组 织 结构 ， 这 一 类 问题 可 能 
要 到 公共 子 表达 式 删除 完成 之 后 才能 发 现 ， 尤 其 
是 ， 公 共 子 表达 式 删 除 常常 在 中 级 中 间 代 码 上 进 
行 ， 而 寄存 器 分 配 以 及 可 能 伴随 的 将 公共 子 表达 
式 的 值 存 放 到 内 存 的 动作 ， 都 要 到 低级 中 间 代 码 
生成 之 后 才 做 。 这 种 因素 ， 以 及 其 他 一 些 原因 ， 图 13-15 在 a) 中 ， 从 B1 到 B2 的 边 上 需要 2 个 寄 
导致 人 们 赞成 在 低级 中 间 代 码 上 进行 公共 子 表达 存 器 ， 而 在 b) 中 ， 需 要 3 个 寄存 器 
式 删除 和 其 他 许多 全 局 优化 。IBM XL 关于 
POWER 和 PowerPC 的 编译 器 (参见 21.2 节 )， 以 及 Hewlett-Packard 关 于 PA-RISC 的 编译 器 就 是 这 
样 做 的 。 : 
实现 向 前 替代 一 般 较 容易 。 在 MIR 中 ， 对 于 那 种 用 一 个 临时 变量 对 另 一 个 变量 赋值 的 指令 ， 

若 此 临时 变量 是 流 图 中 较 早 执行 的 一 个 表达 式 的 计算 结果 ， 则 检查 该 表达 式 的 操作 数 从 该 表达 
鸡 引 _ 式 被 计 值 到 向 前 替代 点 之 间 是 否 没 有 被 修改 。 如 果 没 有 ， 我 们 可 以 简单 地 在 那 一 点 复制 该 表达 
396 ” 式 的 计算 ， 并 将 计算 产生 的 结果 存放 在 适当 的 地 方 。 


13.2 循环 不 变 代码 外 提 


循环 不 变 代 码 外 提 (loop-invariant code motion) 识别 循环 中 那 种 在 循环 的 每 一 个 选 代 都 产 
生 相 同 值 的 计算 ， 并 将 它们 移 到 循环 之 外 ” 。 
最 重要 的 循环 不 变 代码 实例 中 有 很 多 (但 不 是 全 部 ) 是 访问 数组 元 素 的 地 址 计算 ， 这 种 地 











O 注意 ， 如 果 一 个 计算 出 现在 嵌 套 循环 内 ， 对 外 层 循 环 的 特定 迭代 而 言 ， 它 可 能 对 内 屋 循 环 的 每 一 个 迭代 产生 
相同 的 值 ， 但 对 外 层 循环 的 不 同和 迭代 产生 不 同 的 值 。 这 种 计算 将 移 到 内 层 循环 之 外 ， 而 不 是 外 居 循 环 忆 外 。 
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址 计算 代码 一 直 要 到 我 们 将 程序 转换 到 类 似 于 MIR 的 中 间 代 码 或 到 低级 代码 之 后 ， 才 能 暴露 给 
优化 。 作 为 循环 不 变 计算 的 一 个 例子 一 一 其 中 没有 暴露 数组 地 址 一 一 考虑 图 13-16a 所 示 的 
Fortran? 代码 ， 它 可 以 转换 成 如 图 13-16b 所 示 的 情形 。 这 节省 了 近 10 000 次 乘法 操作 和 内 层 循 
环 体 中 约 5 000 次 迭代 的 5 000 次 加 法 操作 。 如 果 详 细 地 描述 地 址 计算 ， 我 们 在 计算 a(Gi ,了 j) 时 还 
会 有 与 12.3.1 节 的 例子 所 示 类 似 的 其 他 循环 不 变量 。 


do i = 1, 100 
1=i* (n+ 2) 


ti = 10* (n + 2) 
t2 = 100 * n 
do i - 1, 100 

t3 =t2+i* ti 


do j = i, 100 

a(i,j) = t3 + j 
enddo . 
enddo 





b) 
图 13-16 a) 在 Fortran 中 循环 不 变 计算 的 例子 ，b) 转换 后 的 结果 代码 


识别 循环 不 变量 是 简单 的 。 假 定 我 们 已 经 通过 前 面 的 控制 流 分 析 标 识 出 了 各 个 循环 ， 并 已 
通过 前 面 的 数据 流 分 析 计 算出 了 ud 链 ， 所 以 我 们 知道 哪些 定 值 会 对 一 个 给 定 变量 的 使 用 有 影 
响 9S。 于 是 ， 可 以 归纳 地 定义 循环 中 的 循环 不 变 指 令 的 集合 ， 即 一 条 指令 是 循环 不 变 的 ， 如 果 
对 于 它 的 每 一 个 操作 数 : 

1. 该 操作 数 是 常数 ， 

2. 到 达 该 操作 数 的 这 个 使 用 的 所 有 定 值 都 在 循环 之 外 ， 或 者 

3. 该 操作 数 只 存在 一 个 到 达 这 条 指令 的 定 值 ， 并 且 这 个 定 值 它 的 指令 本 身 是 该 循环 内 的 一 
个 循环 不 变量 。 | 

注意 ， 这 个 定义 允许 按 如 下 步骤 来 计算 循环 的 循环 不 变 计算 集合 : 9 

1. 在 下 面 的 每 一 步 中 ， 记 录 指 令 被 确定 为 循环 不 变量 时 的 次 序 。 

2. 首先 ， 标 志 指 令 中 的 常数 为 循环 不 变量 。 

3. 接着 ,标志 那些 到 达 它 们 的 定 值 都 位 于 循环 之 外 的 所 有 操作 数 。 

4. 然后 ， 标 志 循环 不 变 指 令 ， 它 们 是 a) 所 有 操作 数 都 标志 为 循环 不 变量 的 指令 ， 或 b) 这 种 
指令 : 它 只 有 一 个 到 达 定 值 且 那个 定 值 已 经 标志 为 此 循环 中 的 循环 不 变量 ， 并 且 在 循环 内 该 指 
令 之 前 没有 使 用 由 该 指令 赋值 的 变量 。 

5. 重复 上 面 的 步 又 2 到 步 又 4， 直 到 没有 新 的 操作 数 或 指令 被 标识 为 欠 代 中 的 不 变量 为 止 。 

图 13-17 给 出 了 实现 这 个 算法 的 两 个 例 程 。 我 们 用 bset 表 示 构 成 一 个 循环 的 基本 块 的 索引 
集合 。 Mark Invar ( ) 对 数据 结构 进行 初始 化 ， 然后 按 宽度 为 主 次 序 对 循环 中 的 每 一 个 基本 
块 调用 Mark_Block () 。 代 码 中 使 用 了 下 述 函 数 : 

1. Breadth, First (bset, Succ, en) 返回 一 个 按 宽度 为 主 次 序 枚 举 bset 中 基本 块 的 序列 ， 
其 中 en 是 bset 的 入 口 基本 块 (参见 图 7-13 )。 


© Fortran 77 的 正式 语法 要 求 ao 循 环 以 “do nv=.…” 开 始 ， 其 中 n 是 一 个 语句 标号 ，v 是 一 个 变量 ， 并 且 以 带 标 
号 n 的 语句 结束 。 但 是 关于 编译 器 的 文献 习惯 使 用 “do v=...” 和 “enaao” 形 式 ， 我 们 在 这 里 以 及 全 书 都 
使 用 这 种 形式 。 

四 ”如果 我 们 没有 可 用 的 ud 链 ， 仍 然 可 以 识别 出 循环 不 变量 ， 但 是 对 每 一 个 使 用 ， 需要 检查 哪些 定义 可 以 到 达 
它 ， 即 ， 实 际 上 相当 于 计算 ud 链 。 

© 我们 可 以 将 它 形式 化 为 数据 流 问 题 ， 但 这 样 做 的 意义 不 大 。 照 现在 的 方法 ， 它 在 计算 Reach_Defs_out () 
和 Reach_Defs_In () 时 隐 式 使 用 了 ud 链 和 du 链 。 
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InstInvar: (integer x integer) —— boolean 
InvarOrder: sequence of (integer x integer) 
Succ: integer —> set of integer 


procedure Mark Invar(bset,en,nblocks,ninsts,Block) 
bset: in set of integer 
en, nblocks: in integer 
ninsts: in array [1--nblocks] of integer 
Block: in array [1:-nblocks] of array [::] of MIRInst 
begin 
i, j: integer 
change: boolean 
Order := Breadth First(bset,Succ,en): sequence of integer 
InvarOrder := [] 
for i := 1 to nblocks do 
for j := 1 to ninsts[i] do 
InstInvar(i,j) := false 
od . 
od 
repeat 
change :- false . 
|| process blocks in loop in breadth-first order 


for i := 1 to lOrder| do 
change V= Mark Block(bset,en,O0rderli, 
nblocks,ninsts,Block) 
od 
until !change 
end || Mark Invar 


procedure Mark Block(bset,en,i,nblocks,ninsts,Block) returns boolean 
bset: in set of integer 
en, i, nblocks: in integer 
ninsts: in array [1::nblocks] of integer 
Block: in array [1:-nblocks] of array [::] of MIRInst 
begin 
j: integer 
inst: MIRInst 
change := false: boolean 
for j := 1 to ninsts[(i] do 
|| check whether each instruction in this block has loop-constant 
|| operands and appropriate reaching definitions; if so, 
|| mark it as loop-invariant 
if !InstInvar(i,j) then 
inst := Block[i](j] 
case Exp Kind(inst.kind) of 
binexp: if Loop Const(inst.opdi,bset,nblocks,ninsts, Block) 
V Reach_Defs_Out (Block, inst.opdi,i,bset) 
V Reach Defs In(Block,inst.opdi,i,j,bset) then 
InstInvar(i,j) := true 
fi 
if Loop. Const(inst.opd2,bset,nblocks,ninsts, Block) 
V Reach, Defs Dut(Block,inst.opd2,i,bset) 
V Reach Defs In(Block,inst.opd2,i,j,bset) then 
InstInvar(i,j) &= true 


图 13-17 标识 循环 体 中 循环 不 变 指令 的 代码 


£13* 
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if Loop. Const(inst.opd,bset,nblocks,ninsts,Block) 
V Reach_Defs_Out (Block, inst .opd,i,bset) 
V Reach. Defs In(Block,inst.opd,i,j,bset) then 
InstInvar(i,j) := true 


fi 
default: esac 
fi 
if InstInvar(i,j) then 


|| record order in which loop invariants are found 


InvarOrder @= [4i,j?] 
change := true 
fi | 
od 
return change 
end || Mark.Block 


图 13-17 (28) 


2. Loop. Const(opnd, bset, nblocks, ninsts, Block) 判断 opnad 是 否 是 由 bset 中 基 


本 块 组 成 的 循环 中 的 一 个 循环 常数 。 


3. Reach_Defs_Out (Block，opnd，i，psef) 返回 true， 如 果 到 达 基 本 块 i 的 opnd 的 所 





有 定 值 都 在 其 索引 不 属于 bset 的 基本 块 中 ; 否则 返回 false。 


4. Reach, Defs, In(Block, opnd, i, j，bset) 返 回 true， 如 果 下 述 条 件 满足 : 恰恰 只 
存在 到 达 基 本 块 Block [i] [万 的 opnd 的 一 个 定 值 ， 此 定 值 在 由 pset 中 基本 块 构成 的 循环 内 ， 而 
且 已 被 标识 是 循环 不 变 的 ， 并 在 Block [i] [万 之 前 执行 ; 此外， 在 循环 内 基本 块 ;的 指令 /之 前 


不 存在 对 Block li] [j] 的 结果 变量 (FARE) 的 使 用 ;否则 返回 false。 
作为 Mark_Invar () 的 例子 ， 考 虑 图 13-18 所 示 的 流 图 。 调 用 


Mark Invar((2, 3, 4, 5, 6), 2, 8, ninsts, Block) 


导致 设置 ordaer={2，3，4，5，6}， 初 始 所 有 的 
InstInvar(ij)Jjfalse, #ikHchange= 
false， 随 后 对 每 一 个 基本 块 按 0rder 给 出 的 宽度 
为 主 次 序 调用 Mark_Block()。 对 基本 块 B2 施 加 
Mark_Block()， 由 此 对 Block[2] [1] 执 行 
binexp 和 情形 ， 它 保持 InstInvar (2，1) 不 变 并 返 
回 false。 

HiMark. Block () Ab PR JE E 3 B3 SAH 
Block[3][1] 执 行 binexp 的 情形 ， 它 设置 
InstInvar(3, 1)-trueffülInvarOrder- [«3, 
1>]. HiíMark Block () 对 Block[3] [2] 执 行 
unexp 情 形 ， 它 设置 InstInvar (3，2) =true 和 
InvarOrder = [<3，1>，<3，2>] ， 并 返回 true。 
然后 Mark_Block() 对 Block[3113] 执 行 binexp 
情形 ， 它 保持 InstInvar (3，3) 和 Invarorder 不 
变 ， 并 返回 true。 

用 Mark_Block() 处 理 基 本 块 B4 导 致 对 
Block[4][1] 执 行 binexp 情 形 ， 它 保持 








图 13-18 循环 不 变 代码 外 提 的 例子 
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InstInvar (4，1) 不 变 。 接 着 Mark_Block() 对 Block[4] [2] 执 行 binexp 情 形 ， 它 保持 
InstInvar (4，2) 不 变 并 返回 false。. 

用 Mazrk_Block() 处 理 基本 块 B5 导 致 对 Block[5][1] 执行 unexp 情 形 ， 它 保持 
InstInvar(5，1) 不 变 。 接 着 Mark_Block() 对 BlIock[5] [2] 执 行 binexp 情 形 ， 它 设置 
InstInvar(5, 2)-—-trued[lInvarOrder- [<3，1>，<3，2>，<5，2>] ， 然 后 返回 true。 

用 Mark_Block() 处 理 基 本 块 B5 导 致 对 Block[6] [11 执行 binexp 情 形 ， 它 保持 
InstInvar (6，1) 不 变 。 接 着 Mark_Block{() 对 Block[6] [2] 执 行 binexp 情 形 ， 它 判断 
出 Block[6] [2] 是 循环 不 变 的 ， 因 此 它 设置 InstInvar (6, 2) =true, InvarOrder= 
[<3，1>，<3，2>，<5，2>，<6，2>] ， 然 后 返回 Erue。 

现在 ， 在 Mark_Invar () 中 change =true， 所 以 我 们 对 循环 中 的 每 一 个 基本 块 再 执行 
一 次 Mark_Block () 。 读 者 可 以 验证 没有 指令 被 进一步 标识 是 循环 不 变 的 ， 因 此 这 个 repeat 
循环 不 需要 再 进一步 迭代 。 

注意 ， 如 果 我 们 在 确定 不 变量 的 期 间 对 运算 执行 重 结合 ， 则 用 这 种 方法 确定 的 循环 不 变量 
的 指令 条 数 会 有 所 增加 。 具 体 地 ， 假 设 我 们 有 图 13-19a 中 的 MIR 代 码 位 于 循环 内 ， 其 中 i 是 循 


环 索引 变量 ，j 是 循环 不 变量 。 在 这 种 情况 下 ， 这 两 条 指 [ti ci+j t2<j+1 
令 都 不 是 循环 不 变 的 。 但 是 ， 如 果 我 们 如 图 13-19b 所 示 | 
对 这 两 个 加 法 执行 重 结合 ， 则 第 一 条 指令 是 循环 不 变 的 。 a) b) 
另外 要 注意 的 是 ， 由 于 别名 的 潜在 影响 ， 为 了 更 精确 ， mo 重 结合 导致 中 的 计算 被 识别 为 
我 们 关于 循环 不 变量 的 定义 还 需要 稍微 做 点 限制 。 例 如 ， 中 中 的 循环 不 变量 的 例子 
MIR 指 令 

m 二 call f, (1, int; 2, int) 


可 以 是 循环 不 变 的 ， 但 是 仅 在 每 次 用 相同 的 参数 调用 它 都 产生 相同 的 结果 ， 并 且 没 有 副作用 的 
情形 下 才 是 循环 不 变 的 。 而 这 个 条 件 是 否 满足 只 有 通过 过 程 间 分 析 (参见 第 19 章 ) 才能 发 现 。 
因此 ， 在 Mark_Block () 中 的 listexp 情 形 下 InstInvar(i,j) =false。 

现在 ， 当 标识 出 循环 不 变 计算 之 后 ， 我 们 可 以 将 它们 移 到 包含 它们 的 这 个 循环 的 前 置 块 中 ( 参 
见 7.4 节 )。 从 表面 上 看 ， 我 们 似乎 可 以 简单 地 按 它们 被 标识 的 次 序 移动 每 一 条 循环 不 变 指 令 到 前 置 
块 中 。 但 不 幸 的 是 ， 这 种 方法 在 实际 中 常常 太 冒 进 。 这 种 做 法 导致 的 错误 有 两 种 原因 (如 图 13-20 
所 示 )。 注 意 ， 这 种 可 能 的 错误 只 作用 于 赋值 指令 。 因 此 如 果 我 们 有 一 个 循环 不 变 条 件 ， 比 如 说 ， 
a<0， 则 用 临时 变量 t 兰 代 它 ， 并 将 赋值 t a<0 放 置 在 前 置 块 中 就 将 总 是 安全 的 。 这 两 种 原因 如 下 : 

1. 一 个 外 提 的 赋值 的 左 部 变量 的 所 有 使 用 都 将 只 能 由 这 个 特定 的 定 值 所 到 达 ， 尽 管 这 个 定 
值 原来 只 是 可 以 到 达 这 些 使 用 的 若干 定 值 中 的 一 个 。 这 个 赋值 原本 可 能 只 在 循环 的 某 些 迭 代 被 
执行 ， 而 如 果 将 它 移 到 前 置 块 中 ， 则 它 将 具有 在 循环 的 每 一 个 迁 代 被 执行 的 效果 。 图 13-20a 举 
例 说 明了 这 种 情况 : 基本 块 B5 中 n 的 使 用 可 以 由 两 个 赋值 n ~ 0 和 n “2 到 达 。 如 果 n — 2 被 移 到 
前 置 块 ， 不 管 怎 样 ， 赋 给 n 的 值 都 总 是 2。 

2. 原来 包含 那 条 被 外 提 指 令 的 基本 块 可 能 在 循环 的 每 一 遍 中 都 不 会 被 执行 。 当 一 个 基本 块 
的 执行 是 有 条 件 的 时 候 就 可 能 发 生 这 种 情况 ， 这 会 导致 给 目标 变量 赋予 不 同 的 值 ， 或 导致 被 转 
换 的 代码 出 现 原来 的 代码 本 不 会 出 现 的 异常 。 这 种 问题 也 可 能 发 生 在 循环 体 可 能 执行 0 次 ， 即 ， 
直接 满足 循环 终止 条 件 时 。 图 13-20b 举 例 说 明了 这 种 问题 当 循 环 的 每 一 次 迭代 都 旁 路 包含 n 
一 2 的 基本 块 时 ， 赋 值 n ~ 2 不 会 被 执行 。 这 种 问题 可 通过 要 求 该 基本 块 是 循环 的 所 有 出 口 基 本 
块 的 必 经 结 点 来 避免 (其 中 ， 出 口 基本 块 是 有 一 个 后 继 在 循环 之 外 的 基本 块 )， 因 为 这 样 它 就 
一 定 会 在 某 个 迭代 被 执行 。 l 
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图 13-20 阐述 我 们 的 代码 外 提 基 本 方法 的 两 个 流 图 例子 。 在 两 种 情况 下 ， 如 果 n 2 被 移 到 前 置 块 ， 
它 将 总 是 执行 ， 尽 管 原来 它 可 能 只 在 某 些 迭代 中 或 只 在 一 个 迭代 中 执行 


为 了 修正 这 个 算法 避免 上 述 问题 ， 我 们 需要 有 预防 这 两 种 情况 发 生 的 条 件 。 令 "是 要 移 到 
前 置 块 的 候选 指令 赋值 的 变量 ， 则 预防 这 种 问题 的 保护 条 件 如 下 : 

1. 定 值 y 的 语句 所 在 的 基本 块 必须 是 循环 中 所 有 使 用 了 v 的 基本 块 的 必 经 结 点 。 

2. 定 值 y 的 语句 所 在 的 基本 块 必须 是 循环 中 所 有 出 口 基本 块 的 必 经 结 点 。 
有 了 这 两 个 附带 条 件 后 得 到 的 算法 就 是 正确 的 。 算 法 如 下 : 对 于 每 一 条 已 标识 是 循环 不 变量 的 
指令 ， 如 果 它 满足 上 面 的 两 个 条 件 ， 则 将 它们 按 被 标识 的 次 序 移 到 循环 前 置 块 中 。 

实现 这 个 算法 的 ICAN 例 程 Move Invar () 在 图 13-21 中 给 出 。 该 例 程 使 用 由 
Mark Invar () 计算 的 序列 Invarorder 和 下 面 4 个 函数 : l 

1. insert_preheader (bset, nblocks, ninsts, Block) 如 果 由 pset 中 的 基本 块 组 成 的 
循环 还 没有 前 置 基 本 块 的 话 ， 为 它 创建 一 个 前 置 基 本 块 并 插入 到 流 图 中 。 

2. Dom, Exits (i, bset) 返 回 true， 如 果 基 本 块 是 索引 属于 bset 的 基本 块 集合 组 成 的 循环 
的 所 有 出 口 基本 块 的 必 经 结 点 ， 否 则 返回 false。 a 

3. Dom_Uses(i, bset, v) 返回 true， 如 果 基 本 块 i 是 循环 中 变量 v 的 所 有 使 用 的 必 经 结 点 ， 
其 中 循环 由 索引 属于 bset 的 基本 块 组 成 ;否则 返回 false。 

4. append_preheader (bset, ninsts, Block, inst) 插入 指令 inst 到 循环 前 置 基本 块 的 末 
尾 ， 其 中 循环 由 索引 属于 bset 的 基本 块 组 成 。 它 可 以 用 4.8 节 的 append_block () 来 实现 。 

注意 ， 第 二 个 附带 条 件 仍然 没有 排除 循环 可 能 执行 0 次 的 情形 ， 因 为 循环 测试 可 能 在 循环 
的 顶部 执行 ， 而 测试 结果 在 循环 一 开始 就 可 能 为 真 。 有 两 种 方法 可 处 理 这 个 问题 : 一 种 方法 叫 
做 循环 倒置 ， 将 在 18.5 节 讨论 ; 另 一 种 方法 简单 地 移动 代码 到 前 置 块 ， 并 用 一 个 测试 是 否 进入 
.循环 的 条 件 ， 即 识别 终止 条 件 是 否 一 开始 就 为 False， 来 保护 它 。 这 种 方法 总 是 安全 的 ， 但 它 
增加 了 代码 体积 ， 并 在 这 个 测试 总 是 true 或 总 是 false 的 情形 下 ， 还 有 可 能 使 代码 变 慢 。 但 
另 一 方面 ， 这 种 方法 使 常数 传播 分 析 有 可 能 确定 出 结果 条 件 是 常数 值 ， 因 而 可 将 它 删 除 《 随 同 
它 所 保护 的 代码 一 起 ， 如 果 这 个 条 件 总 是 false 的 话 )。 

作为 应 用 Move_Invar () 的 例子 ， 我 们 继续 图 13-18 的 流 图 例子 。 我 们 调用 


Move Invar((2, 3, 4, 5, 6), 2, 8, ninsts, Block) 
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procedure Move Invar(bset,nblocks,ninsts,Block,Succ,Pred) 
bset: in set of integer 
nblocks: in integer 
ninsts: inout array [1--nblocks] of integer 
Inst: inout array [1--nblocks] of array [--] of MIRInst 
Succ, Pred: inout integer —> set of integer 
begin 
i, blk, pos: integer 
P: set of (integer x integer) 
tj: Var 
inst: MIRInst 
insert. preheader (bset,nblocks,ninsts,Block) 
for i := 1 to |InvarOrder| do 
blk := (InvarÜrderii)01 
pos := (InvarÜrderii)02 
inst := Block[blk] [pos] 
if Has Left(inst.kind) & (Dom Exits(blk,bset) 
& Dom Uses(blk,bset,inst.left) then 
|! move loop-invariant assignments to preheader 
case inst.kind of 
binasgn, unasgn: append_preheader (Block[bik] [pos] , bset) 
delete_inst (blk, pos ,ninsts, Block, Succ, Pred) 
default: esac 
elif !Has_Left(inst.kind) then 
|| turn loop-invariant non-assignments to assignments in preheader 
tj := new tmp( ) 
case inst.kind of 
binif, bintrap: append.preheader(bset,ninsts,Block,(kind:binasgn,left:tj, 
opr:inst.opr,opdi:inst.opdi,opd2:inst.opd2)5) 
unif, untrap: append preheader(bset,ninsts,Block,(kind:binasgn,left:tj, 
opr: inst.opr , opd: inst .opd>) 
default: esac 
case inst.kind of 
|| and replace instructions by uses of result temporary 
binif, unif: Block[blk] [pos] := <kind:valif, opd:<kind:var,val:tj>, 
label: inst .1b1> 
bintrap, untrap: 
Block [blk] [pos] := (kind: valtrap,opd:<kind:var,val:tj>, 
trapno: inst .trapno> 
default: esac 
fi 
od 
end || Move. Invar 


图 13-21 循环 不 变 指令 的 代码 外 提 





InvarOrder = [<3,1>,<3,2>,<5,2>,<6,2>] 
ikMove Invar () 中 最 外 层 的 for 循 环 只 做 i =1,2,3,4 几 个 迭代 。 对 于 i =1， 它 设置 blk 
=3 和 pos =1， 并 确定 出 基本 块 B3 是 循环 出 口 的 必 经 结 点 ，Block[3] [1] 有 一 个 左 部 量 ， 
并 且 n | 

Dom Uses (3, {2,3,4,5,6},a) =true 
因此 ， 它 执行 binasgn 情 形 ， 将 指令 Block[31 [1] 添 加 到 前 置 基本 块 末 尾 ， 即 基本 块 Bi 末 
尾 。 对 于 i =2， 此 和 例 程 的 处 理 过 程 类 似 ,但 它 选择 的 是 unasgn 情 形 ( 它 也 是 binasgn 情 形 )。 
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对 于 i =3， 它 设置 blk = 5 和 pos =2 ， 确 定 出 基本 块 B5 不 是 循环 出 口 的 必 经 结 点 ， 因 此 不 做 


进一步 的 改变 。 对 于 i = 4， 它 设置 blk= 6 和 pos =2， 
确定 出 B6 是 循环 出 口 的 必 经 结 点 ， 并 确定 出 
Block[6] [21 没 有 左 部 量 。 因 此 它 执行 binif 情 形 ， 
这 种 情形 下 创建 一 个 新 的 临时 变量 t1， 添 加 t1 ~ a<2 
到 基本 块 B1， 并 将 Block [6]12] 改 变 成 一 条 对 tl1 进 
行 测试 的 指令 。 结 果 代 码 如 图 13-22 所 示 。 注 意 ， 假 如 
在 此 时 做 常数 折 和 从， 我 们 就 能 判别 出 tl 总 是 false， 
因此 该 循环 不 会 终止 。 

在 对 人 嵌 套 循环 执行 循环 不 变 代 码 外 提 时 ， 我 们 从 
最 内 层 循环 由 里 向 外 进行 。 按 这 种 顺序 能 够 标识 的 不 
变量 和 外 提 的 代码 最 多 。 例 如 ， 考 虑 图 13-23a 中 的 
Fortran 77 循 环 典 套 。 标 识 最 内 层 的 不 变量 得 到 图 
13-23b 一 一 不 变量 带 有 下 划 线 ， 将 它们 从 循环 中 提出 
得 到 图 13-23c。 接 着 ， 标 识 外 层 的 循环 不 变量 得 到 图 
13-23d， 将 它们 从 循环 中 提出 产生 了 图 13-23e 中 的 
最 终 代码 。 

对 于 那 种 执行 归 约 的 循环 ， 循 环 不 变 代码 外 提 有 
一 种 特殊 情形 。 归 约 (reduction) 是 一 种 诸如 求 累 加 








图 13-22 对 图 13-18 的 流 图 施加 循环 
不 变 代码 外 提 的 结果 





do i = 1,100 
m = 2*i + 341 
doj-21,i-1 
a(i,j) = j * m + 3*k 
enddo 
enddo 


do i = 1,100 
m = 2*i + 3*1 
ti2i-1 
t2 = m * 3*k 
do j = 1, t1 

a(i,j) = j + t2 

enddo 

enddo 


t3 = 3*1 
t4 = 3*k 


do i * 1,100 
m = 2*i + t3 


t1-i-1 
t2 = m * t4 
do j = 1, t1 
“ak(i,j) = j + t2 
enddo 
enddo 


e) 





do i = 1,100 
m = 2*i + 3*1 
doj-21,i-1 
a(i,j = j + m+ 3*k 
enddo 
enddo 


do i - 1,100 
m = 2*i + 3*1 
ti-i-1 
t2 =m + 3*k 
do j =1,ti. 

a(i,j) = j + t2 

enddo 

enddo 


图 13-23 和 从 套 Fortran 循 环 的 循环 不 变 代码 外 提 (不 变量 带 有 下 划 线 ) 
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和 、 连 乘 或 求 最 大 值 之 类 的 操作 ， 例 如 图 13-24 循 环 中 的 操作 ， 构 成 此 循环 的 这 4 条 指令 可 以 用 
一 条 s =n*a (j) 来 替代 。 如 果 这 种 归 约 的 操作 数 是 循环 不 变量 ， 
那么 ， 这 个 循环 可 以 用 单个 操作 来 替代 ， 具 体 方法 如 下 : 
1. 如 果 循 环 是 求 累 加 和 ， 可 以 用 单条 乘法 运算 赫 代 它 。 
2. 如 果 循 环 是 求 连 乘 ， 可 以 用 单条 求 宕 运算 替代 它 。 | 
3. 如 果 循环 是 求 最 大 值 或 最 小 值 ， 可 以 通过 将 循环 不 变量 的 。 图 13-24 归 约 的 例子 
值 赋 给 存放 极 值 的 结果 变量 来 赫 代 它 。 
4. 如 此 等 等 。 


13.3 部 分 元 余 删 除 


部 分 元 余 删 除 是 一 种 结合 了 全 局 公共 子 表达 式 删 除 和 循环 不 变 代码 外 提 ， 并 且 还 能 对 代码 
有 另外 一 些 改善 的 优化 。 

实质 上 ， 部 分 宛 余 (partial redundancy) 是 一 种 在 流 图 的 某 条 路 径 上 其 执行 多 于 一 次 以 上 
的 计算 ， 即 一 个 给 定 的 计算 在 流 图 的 某 条 路 径 的 一 个 点 上 已 经 被 计 值 ， 并 且 在 此 路 径 上 还 将 被 
计 值 。 部 分 宛 余 删除 插入 和 删除 流 图 中 的 这 种 计算 ， 使 得 在 经 过 转换 之 后 ， 每 一 条 路 径 出 现 的 
这 种 计算 次 数 不 会 多 于 一 一 通常 是 少 于 一 一 原来 出 现 的 计算 。 将 它 形式 化 为 数据 流 问题 比 我 们 
考虑 的 其 他 所 有 问题 都 要 复杂 。 

部 分 宛 余 删除 首创 性 的 工作 是 由 Morel 和 Renvoise [MorR79] 给 出 的 ， 他 们 后 来 又 将 它 扩充 
为 过 程 间 的 形式 [MorR81]。 他 们 的 公式 所 表述 的 过 程 内 的 版 本 需要 执行 双向 数据 流 分 析 ， 但 我 
们 将 看 到 ， 本 书 讨论 的 现代 版 本 避免 了 这 样 做 。 这 个 现代 版 本 以 一 种 最 新 的 称 为 懒惰 代码 移动 
(lazy code motion) 的 公式 为 基础 ， 这 种 公式 是 由 Knoop、Riithing 和 Steffen [KnoR92] 等 人 开发 
的 。 名 字 中 使 用 “懒惰 ”一 词 是 指 ， 只 要 不 会 牺牲 原 古 典 算法 已 减少 的 元 余 计 算 量 ， 在 流 图 中 
就 尽 可 能 推 后 放置 一 个 计算 。 懒 惰 的 目的 是 减少 寄存 器 的 压力 (参见 16.3.1 节 )， 即 ， 使 得 存放 
特定 值 的 寄存 器 所 跨越 的 指令 范围 最 小 。 

为 了 用 公式 来 描述 部 分 元 余 删 除 有 关 的 数据 流 分 析 ， 我 们 需要 定义 表达 式 的 一 系列 的 局 部 
和 全 局 数据 流 性 质 ， 并 说 明 如 何 计算 每 一 种 性 质 。 注 意 ， 取 一 个 变量 的 值 是 一 种 表达 式 ， 并 对 
它 施 行 同样 的 分 析 。 l 

该 算法 的 一 个 关键 点 是 ， 如 果 在 执行 数据 流 分 析 之 前 已 经 对 流 图 中 的 关键 边 进行 了 分 割 ， 
则 效率 高 得 多 。 关 键 边 (critical edge) 是 连接 一 个 具有 两 个 以 上 后 继 的 结 点 和 一 个 具有 两 个 以 
上 前 驱 的 结 点 的 边 ， 例 如 图 13-25a 所 示 的 从 B1 到 B4 的 边 。 通 过 引入 新 基本 块 B1a 分 割 这 条 边 ， 
允许 执行 宛 余 删 除 ， 如 图 13-25b 所 示 。Dhamdhere 和 其 他 人 已 证 明 ， 这 种 图 形 转换 是 部 分 宛 余 
删除 能 获得 最 大 效果 所 需要 的 。 l 

我 们 这 一 节 从 头 到 尾 都 使 用 图 13-26 的 例子 。 注 意 B4 中 x*y 的 计算 是 元 余 的 ， 因 为 它 已 在 
B2 中 被 计算 ; 由 于 同样 的 原因 ， B7 中 的 x*y 的 计算 是 部 分 元 余 的 。 在 我 们 的 例子 中 ， 关 键 是 
分 割 从 B3 到 B5 的 边 ， 以 便 有 地 方 存放 从 B7 移 出 的 x*y 的 计算 ， 使 得 它 既 不 在 从 B2 引 出 的 路 径 
上 ， 也 不 位 于 B6 之 前 。 | 

我 们 从 标识 和 分 割 关键 边 开 始 。 具 体 地 ， 对 于 图 13-26 的 例子 ， 从 B2 和 B3 到 B5 的 两 条 边 都 
是 关键 边 。 例 如 ， 对 于 从 B3 到 B5 的 边 ， 我 们 有 Succ(B3) = {B5,B6} 和 pred (B5) = (B2, B3). 
分 割 这 两 条 边 需 要 创建 新 的 基本 块 B2a 和 B3a， 并 用 从 原 关键 边 的 尾 进 入 这 个 新 基本 块 (一 开 
始 时 为 空 基本 块 ) 的 边 ， 以 及 从 这 个 新 基本 块 出 来 进入 原 关键 边 的 头 的 边 来 替代 要 分 割 的 边 。 
结果 如 图 13-27 所 示 。 
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图 13-26 部 分 元 余 删除 的 例子 图 13-27 分 割 图 13-26 中 从 B2 到 B5 和 从 B3 到 B5 的 
边 的 例子 。 新 基本 块 B2a 和 B3a 已 加 到 流 图 中 


我 们 考虑 的 第 一 个 性 质 是 局 部 透明 性 。。 一 个 表达 式 的 值 在 基本 块 :中 是 局 部 造 明 的 《local 
”transparent)， 如 果 在 这 个 基本 块 中 ， 没 有 对 出 现在 此 表达 式 中 的 变量 进行 赋值 。 我 们 用 
TRANSloc(i) 表 示 在 基本 块 中 局 部 透明 的 那些 表达 式 集 合 。 

对 于 我 们 的 例子 ， 


日 注意 ， 局 部 透明 性 与 我 们 第 8 章 称 为 PRRSV 的 性 质 类 似 。 
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TRANSloc (B2) = (x*y) 

TRANSloc(i) -U,,— (a«1, x*y), Hhi*B2 
Uw 表示 程序 中 要 分 析 的 所 有 表达 式 的 集合 。 

表达 式 的 值 在 基本 块 是 局 部 可 预见 的 (locally anticipatable)， 如 果 在 基本 块 i 中 存在 着 此 
表达 式 的 一 个 计算 ， 并 且 移 动 这 个 计算 到 基本 块 的 开始 不 会 改变 这 个 基本 块 的 效果 ， 即 ， 如 果 
基本 块 中 在 所 考虑 的 这 个 计算 的 前 面 既 没有 使 用 该 表达 式 ， 也 设 有 对 它 的 变量 赋值 。 我 们 用 
ANTIoc(i) 表 示 基 本 块 中 局 部 可 预见 的 表达 式 集合 。 

对 于 我 们 的 例子 ，ANTiloc0 的 值 如 下 : 


ANTloc(entry) = 9 
ANTloc(B1) = {ati} 
ANTloc(B2) = {x*y} 
ANTIoc(B2a) = @ 
ANTloc(B3) = ø 
ANTloc(B3a) =ø 
ANTloc(B4) = {x*y} 
ANTloc(B5) - 
ANTloc(B6) = 
ANTloc(B7) = {x*y} 
ANTloc(exit) = 9 


一 个 表达 式 的 值 在 基本 块 的 入 口 是 会 局 可 预见 的 (globally anticipatable), ， 如 果 从 那 一 点 
开始 的 每 一 条 路 径 都 包含 该 表达 式 的 一 个 计算 ， 并 且 如 果 将 这 个 计算 放置 在 这 些 路 径 上 的 任意 
点 都 产生 相同 的 值 。 在 基本 块 i 入 口 可 预见 的 表达 式 集合 用 ANTin(i) 表 示 。 一 个 表达 式 的 值 在 一 
个 基本 块 的 出 口 处 是 可 预见 的 ， 如 果 它 在 该 基本 块 的 每 一 个 后 继 基本 块 的 入 口 是 可 预见 的 ; 我 
们 用 ANTout() 表 示 从 基本 块 i 出 口 时 是 全 局 可 预见 的 表达 式 集 合 。 为 了 计算 流 图 中 所 有 基本 块 i 
的 ANTinO 和 ANTout()， 我 们 以 初 值 4NTout(exit)= # 解 下 面 的 数据 流 方程 : 

ANTin(i) = ANTloc(i) U (TRANSloc(i) n ANTout(i)) 


ANTout(i)= (^ ANTinQ) 


jeSuccG) 


对 于 我 们 的 例子 ，4NTinO0 和 4N7pxwtO 的 值 如 下 : 
ANTin(entry) = {at1} ANTout(entry) = {a1} 


ANTin(B1) = [at1) ANTout(B1) = 6 
ANTin(B2) = {xy} ANTout(B2) = {x*y} 
ANTin(B2a) = {x*y} ANTout(B2a) = {x*y} 
ANTin(B3) =ø ANTout(B3) = 
ANTin(B3a) = {x+y} ANTout(B3a) = {x*y} 
ANTin(B4) = {x*y} ANTout(B4) =ð 
ANTin(B5) = {x*y} | ANTowut(B5) = {x*y} 
ANTin(B6) =ø ANTout(B6) =ø 
ANTin(B7) = {x*y} ANTout(B7) =ø 
ANTin(exit) = ANTout(exit) =Ø 


做 懒 情 代 码 移 动 需 要 的 下 一 个 性 质 是 最 早 性 。 一 个 表达 式 在 基本 块 ? 的 入 口 是 最 时 的 
(earliest)， 如 果 从 entry 通 向 基本 块 ;的 路 径 上 不 存在 这 样 一 个 基本 块 ， 它 计算 该 表达 式 
并 且 产 生 与 在 进入 基本 块 寻 计算 该 表达 式 相同 的 值 。 类 似 地 ， 可 定义 从 一 个 基本 块 出 口 时 的 
最 早 性 。 性 质 E4RLinO0 和 EARLox 可 用 如 下 方程 计算 : 
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EARLin(i)) = U EARLout(j) 
jePred(i) 


EARLout(i) = TRANSloc(i) U (ANTinG) n EARLinG)) 


Km A=U„ -A ， 且 初 值 EARLin(entry) —U,,. 
对 于 我 们 的 例子 ，EARLinO 的 值 如 下 : 


EARLin(entry) 
EARLin(B1) 
EARLin(B2) 
EARLin(B2a) 
EARLin(B3) 
EARLin(B3a) 
EARLin(B4) 
EARLin(B5) 
EARLin(B6) 
EARLin(B7) 
EAR Lin(exit) 
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(delayed), ， 如 果 它 在 那 一 点 是 可 预见 的 和 最 早 的 ， 并 且 它 的 所 有 后 继 计算 都 在 基本 块 ;内 。 


延迟 性 的 方程 是 


x+y} 
x+y} 
ati} 
x*y} 
{x*y} 
[a*i) 
[a*1) 
{x+y} 
{a+1} 


( 
{ 
( 
{ 
{ 


ati,x*y) 


[a*1,x*y] 


EARLout(entry) 
EARLout(B1) 
EARLout(B2) 
EARLout(B2a) 
EAR Lout(B3) 
EARLout(B3a) 
EARLout(B4) 
EARLout(B5) 
EARLout(B6) 
EARLout(B7) 
EARLout(exit) 


DELAYout (i) = ANTIoc(i) N DELAYin(i) 


DELAYin(i) = ANEAin(i) U N DELAYout(j) 


其 中 


jePred(i) 


ANEAin(i) = ANTin(i) n EARLin(i) 
且 初 始 值 DELAYin(entry)=ANEAin(entry)。 
对 于 我 们 的 例子 ，ANEAin0 的 值 如 下 : 


DELAYout(entry) 
DELAYout(B1) 
DELAYout(B2) 
DELAYout(B2a) 
DELAYout(B3) 
DELAYout(B3a) 
DELAYout(B4) 


ANEAin(entry) = {at+1} 
ANEAin(B1) = 
ANEAin(B2) = {x*y} 
ANEAin(B2a) = 6 
ANEAin(B3) =ø 
ANEAin(B3a) = {x+y} 
ANEAin(B4) =ø 
ANEAin(B5) =ø 
ANEAin(B6) =ø 
ANEAin(B7) = 
ANEAin(exit) = 9 

JE BH DELAYinOFODELAYoutO REN F: 
DELAYin(entry) = {at1} 
DELAYin(B1) = {ati} 
DELAYin(B2) = {x+y} 
DELAYin(B2a) = ø 
DELAYin(B3) 一 人 
DELAYin(B3a) = {x+y} 
DELAYin(B4) - 
DELAYin(B5) =ø 


DELAYout(B5) 


u wn wg 


{x+y} 
{a+1} 
= {ati,x*y} 
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DELAYin(B6) - DELAYout(B6) = 6 
DELAYin(B7) =ð DELAYout(B7) = @ 
DELAYin(exit) = 9 DELAYout(exit) 一 分 


下 面 我 们 定义 的 一 个 性 质 称 为 最 迟 性 。 一 个 表达 式 在 基本 块 汐 入 口 是 最 迟 的 (latest), dn 
果 基 本 块 的 入 口 处 是 计算 该 表达 式 的 最 佳 点 ， 并 且 在 从 基本 块 i 的 入 日 到 exit 基 本 块 的 每 一 条 
路 径 上 ， 该 表达 式 的 所 有 最 佳 计算 点 都 出 现在 此 表达 式 在 原 流 图 中 的 那些 计算 点 中 的 某 一 个 计 
算 点 之 后 。LATEin0 的 数据 流 方 程 如 下 : 


LATEin(i) = DELAYin(i) N (vos (1 nz) 


jeSucc(i) 


对 于 我 们 的 例子 ，ZLA47TEinO 如 下 : 
LATEin(entry = Ø 


LATEin(B1) = {ati} 

LATEin(B2) = {x+y} 

LATEin(B2a) =ø 

LATEin(B3) = 6 

LATEin(B3a) = {x*y} 

LATEin(B4) = 

LATEin(B5) =ø ‘ 
LATEin(B6) = 9 

LATEin(B7) =ø 

LATEin(exit) = @ 


对 于 一 个 表达 式 的 计算 ， 其 最 佳 计算 位 置 定义 为 是 孤立 的 (isolated)， 当 且 仅 当 从 计算 它 
的 这 个 基本 块 的 一 个 后 继 到 exit 基 本 块 的 每 一 条 路 径 上 ， 这 个 最 佳 位 置 点 先 于 该 表达 式 原 来 
的 每 一 个 计算 。 数据 流 性 质 1SOLin0 和 1SOLout0 由 下 面 的 方程 组 定义 

ISOLin(i) = LATEin(i) U (ANTlocG) n ISOLout(i)) 

ISOLout(i)= (^| ISOLin(j) 

jeSucc(i) 

且 初 始 值 ISOLout(exit)=$ 

对 于 我 们 的 例子 ，ISOLin() 和 1SOLout0 的 值 如 下 : 


ISOLin(entry = Ø ISOLout(entry) = Ø 
ISOLin(B1) ={ati} — ISOLout(B1) =ø 
ISOLin(B2) —[x«y] ISOLout(B2) = 6 
ISOLin(B2a) = 6 ISOLout(B2a) =ø 
'ISOLin(B3) =ø ISOLout(B3) = ø 
ISOLin(B3a) = {x*y} ISOLout(B3a) 一 ø 
ISOLin(B4) = ISOLout(B4) =ø 
ISOLin(B5) = ğ ISOLout(BS) = ø 
ISOLin(B6) -$ ISOLout(B6) =ø 
ISOLin(B7) = 6 ISOLout(B7) = @ 
TSOLin(exit) = 9 ISOLout(exit) =Ø 


一 个 基本 块 是 其 最 佳 计算 点 的 表达 式 集 合 是 由 这 样 一 些 表 达 式 组 成 的 集合 ， 对 于 这 个 基本 
这 些 表 达 式 是 最 迟 的 但 不 是 孤立 的 ， 即 

OPT (i) = LATEin(i) N ISOLout(i) 

并 且 基 本 块 中 的 完 余 计算 集合 由 那些 在 该 基本 块 中 使 用 的 ( 即 属于 ANTLOCO) 但 在 此 基 
本 块 中 既 不 是 孤立 的 也 不 是 最 迟 的 表达 式 组 成 ， 即 ， 
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REDN(i) = ANTloc(i) n LATEin(i) U ISOLout(i) 
对 于 我 们 的 例子 ，OPTO 和 REDNO 的 值 如 下 : 


OPT(entry = Ø REDN(entry =Ø 
OPT(B1) = (a*1] REDN(B1) = (a*1] 
OPT(B2) = {x*y} REDN(B2) = {x*y} 
OPT (B2a) =ð REDN(B2a) = ð 
OPT (B3) =ø REDN (83) = ø 
OPT(B3a) = {x*y} REDN(B3a) =ø 
OPT (B4) =ø REDN (B4) = {x*y} 413 
OPT (B5) = 6 REDN(B5) =ø 
OPT (B6) =@ REDN(B6) =ð 
OPT(B7) =ø REDN (B7) = {x+y} 
OPT(exit) = 9 REDN(exit) = $9 


因此 ， 如 果 我 们 删除 B4 和 B7 中 x*y 的 计算 ， 留 下 B2 中 的 那个 ， 并 在 B3a 中 增加 一 个 ， 则 得 到 
如 图 13-28 所 示 的 结果 。 





图 13-28 对 图 13-27 的 例子 实施 现代 部 分 元 余 删 除 的 结果 
实现 部 分 元 余 移 动 所 需要 的 代码 与 Move_Invaz () 类似 。 我 们 将 它 留 给 读者 作为 


练习 。 
现代 部 分 元 余 删 除 可 扩充 为 包含 强度 削弱 。 但 是 ， 其 强度 削弱 是 一 种 特别 弱 的 形式 ， 因 为 
它 不 识别 循环 常量 。 例 如 ， 图 13-29a 中 的 代码 可 以 用 14.1.2 节 描述 的 方法 进行 强度 前 弱 ， 产 生 
图 13-29b 所 示 代 码 , 但 是 ， 基 于 部 分 元 余 删 除 的 强度 削弱 不 能 产生 这 个 代码 ， 因 为 它 不 注意 循 
环 常量 。 . 
Briggs 和 Cooper [BriC94b] 通 过 将 部 分 元 余 删 除 与 全 局 重 结合 和 全 局 值 编 号 ( 见 12.4.2 节 ) 结 
合 在 一 起 ， 改 善 了 它 的 效果 ; Cooper 和 Simpson([CooS95c] 和 [Simp96]) 通 过 利用 SSA 形 式 对 值 
操作 而 不 是 对 标识 符 操作 进一步 改善 了 它 。 下 一 节 将 简单 讨论 它 与 重 结合 的 结合 。 
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for j= i,n 
k= k + i*j 
endfor 





endfor 





a) 
图 13-29 说 明 从 部 分 宛 余 导 出 的 强度 削弱 不 足 的 例子 。a) 中 的 代码 用 14.1.2 节 的 算法 
可 以 被 强度 削弱 为 b) 中 的 代码 ， 但 用 部 分 元 余 导 出 的 强度 削弱 方法 却 不 能 ， 
因为 它 不 能 识别 内 层 循环 中 的 变量 i 为 循环 不 变量 


13.4 宛 余 删除 和 重 结合 

重 结合 能 显著 地 增强 所 有 形式 的 宛 余 删 除 的 适应 性 和 效果 。 例 如 ， 在 图 13-30 的 Fortran 代 
码 中 ， 对 循环 A 仅 施加 公共 子 表达 式 删除 得 到 循环 B。 若 同时 还 包含 重 结合 ， 则 存在 着 如 图 13-31 
所 示 的 另 一 种 可 能 的 优化 序列 。 | 





(A) do i = m,n (B) do i = m,n 
a=bti CSE a=bti 
c-a-i c2a-i 
d=bti d=a 

enddo CSE= 公 共 子 表达 式 删 除 enddo 


图 13-30 对 A 中 的 循环 仅 施加 公共 子 表达 式 删除 得 到 B 中 的 循环 


公共 子 表 
达 式 删除 





图 13-31 公共 子 表达 式 删 除 和 循环 不 变 代码 外 提 与 重 结合 相 结 合 ， 得 到 一 种 
与 图 13-30 相 比 可 能 性 更 大 的 转换 序列 和 更 有 改善 的 结果 
我 们 进一步 注意 到 ， 这 两 种 序列 中 有 一 个 需要 公共 子 表达 式 删 除 ， 而 另 一 个 不 需要 ; 但 它 
们 至 少 有 同样 的 (最 好 ) 结果 。 这 使 人 想到 可 重复 地 应 用 这 三 种 优化 的 组 合 ， 但 这 样 做 很 容易 


导致 组 合 的 激增 ， 因 此 不 建议 采用 这 种 做 法 。 
部 分 元 余 删 除 与 重 结合 相 结合 可 以 在 某 种 程度 上 减轻 这 种 问题 ， 如 图 13-32 所 示 。 注 意 ， 








如 果 我 们 先 做 部 分 宛 余 删除 ， 则 在 重 结合 后 还 需要 再 次 应 用 它 才 能 得 到 最 好 的 结果 。 415 
416 
(B) do i = m,n do i = m, 
a=b+t 重 结合 ® i a “bs i 
c=a-i c=b 
d=a d-a 
enddo enddo 
部 分 宛 部 分 元 
A BN BR 余 删 除 
(A) do i - m,n =b 
a=bti © do i= m,n 
c-a-i a=b+i 
d=b+i d=a 
enddo enddo 
do i = m,n 
重 结合 Sp 部 分 元 
d=b+i 余 删 除 
enddo 


图 13-32 部 分 元 余 删 除 与 重 结合 相 结 合 得 到 与 图 13-31 相 同 的 结果 


13.5 代码 提升 


代码 提升 (code hoisting) (也 称 统 一 (unification) 一 一 参见 17.6 节 ) 寻 找 在 某 点 之 后 的 所 
有 路 径 上 总 是 被 计算 的 表达 式 ， 并 且 将 它们 移 到 总 能 被 计算 的 一 个 最 晚点 ， 超 过 这 一 点 它们 将 
被 不 同 的 路 径 计算 。 这 种 转换 几乎 总 能 减少 程序 所 占 的 空间 ， 但 对 程序 的 执行 时 间 可 能 有 正面 
影响 、 负 面 影 响 ， 或 根本 没有 影响 。 它 是 否 改善 执行 时 间 取 决 于 它 对 指令 调度 的 影响 、 对 指令 
高 速 缓存 的 影响 ， 以 及 其 他 一 些 因素 。 

称 一 个 从 给 定点 开始 的 无 论 什么 路 径 上 都 被 计算 的 表达 式 为 在 那 一 点 的 非常 忙 (very busy) 
表达 式 。 为 了 确定 非常 忙 表达 式 ， 我 们 对 表达 式 做 向 后 数据 流 分 析 。 定 义 EV4L(i) 是 这 种 表达 
式 集合 ， 这 些 表 达 式 在 基本 块 i 中 被 计算 ， 并 且 该 计算 位 于 基本 块 中 对 它们 的 任何 操作 数 赋 值 
之 前 (如 果 有 这 种 赋值 的 话 )。 定 义 KILL(Gi) 是 被 基本 块 i 杀 死 的 表达 式 集合 。 就 此 上 下 文 而 言 ， 
一 个 表达 式 被 基本 块 i 杀 死 ， 如 果 在 该 基本 块 中 它 的 一 个 (或 多 个 ) 操作 数 被 赋值 ， 并 且 或 者 
这 种 赋值 位 于 此 基本 块 中 该 表达 式 的 计算 之 前 , 或 者 该 表达 式 在 此 基本 块 中 根本 就 没有 被 计算 。 
于 是 在 基本 块 的 入 口 和 出 口 的 非常 忙 表 达 式 (very busy expression) 集合 的 VBEin(i) 和 
VBEout(i) 定 义 分 别 为 : 

VBEin(i) = EVAL(i)U (VBEout(i) — KILL()) 

VBEoutG) = (^ VBEin() 


jeSuccti) 


其 中 ， 在 解 此 数据 流 方 程 时 ， 对 于 所 有 的 i， 初 始 值 VBEout(i) = 9 。 利 用 位 向 量 可 有 效 地 实现 


这 种 数据 流 分 析 。 
例如 ， 对 于 图 13-33 中 的 流 图 ， 它 的 EVALO 和 KILLO 集 合 如 下 : EE 417 
EVAL(entry) = Ø KILL(entry) = Ø 
EVAL(B1) =ð KILL(B1) =ð 


EVAL(B2) = {c+d} . KILL(B2  . = {atd} 
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EVAL(B3) = {atc,ctd} KILL(B3) =% 
EVAL(B4) = [atb,a*c) KILL(B4) =ø 
EVAL(B5) = {atb,atd} KILL(B5) =ø 
EVAL(exit) =ø KILL(exit) =ð 

并 且 它 的 VBEin0 和 VBEoxtO 集 合 如 下 : 
VBEin(entry) = {ct+d} VBEout(entry) = {ctd} 
VBEin(B1) = {c+d} VBEout(B1) = {ctd} 
VBEin(B2) = (c*d] VBEout(B2) = ð 
VBEin(B3) = {atb,atc,ctd} VBEout(B3) = {atb,atc} 
VBEin(B4) = {atb,atc} VBEout(B4) =ð 
VBEin(B5) = {atb,atc,atd,c+d} VBEout(B5) = {atb,atc,ctd} 
VBEin(exit) =ð VBEout(exit) = 





图 13-33 代码 提升 的 例子 


现在 ， 对 于 任何 i* entry，VBEout(i) 中 的 每 一 个 表达 式 exp 都 是 可 以 提升 的 候选 表达 
式 。 令 5S 是 满足 如 下 条 件 的 基本 块 j 的 集合 :基本 块 j 的 必 经 结 点 是 基本 块 i， 基 本 块 ;中 计算 了 
exp， 并 且 在 基本 块 :末尾 计算 的 exp 能 够 无 损 地 到 达 基 本 块 中 exp 的 第 一 个 计算 。 令 二 是 一 
个 新 的 临时 变量 。 于 是 我 们 添加 圾 ~ exp 到 基本 块 的 末尾 除非 基本 块 i 以 条 件 分 支 指令 结 
束 ， 在 这 种 情况 下 ， 我 们 将 此 赋值 放置 在 条 件 分 支 指令 的 前 面 )， 并 且 用 态 灰 代 集 合 8 中 每 
一 个 基本 块 /中 exp 的 第 一 个 使 用 。 实 现 这 种 转换 的 ICAN 代 码 如 图 13-34 所 示 。 代 码 中 使 用 了 
下 面 的 例 程 : 





BinExp = Üperand x Operator x Operand 


procedure Hoist Exps (nblocks,ninsts,Block,VBEout) 
nblocks: in integer 
ninsts: inout array [i::nblocks] of integer 
Block: inout array [i::nblocks] of array [::] of MIRInst 
VBEout: in integer —> set of Binexp 
begin 


i, j, k: integer 

S: set of (integer x integer) 
exp: BinExp 

th: Var 


s: integer X integer 
inst: MIRInst 


图 13-34 实现 代码 提升 的 ICAN 例 程 
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for i :- 1 to nblocks do 
for each exp € VBEout(i) do 
S :=@ 
for j := 1 to nblocks do 
if !Dominate(i,j) then 
goto L1 


:= 1 to ninsts[j] do 
inst := Block[j] [k] 
if Exp.Kind(inst.kind) = binexp 
& inst.opdl = exp61 & inst.opr = exp@2 
= exp@3 & Reach(exp,Block,i,j,k) then 


& inst.opd2 
S u= {<j,k>} 
goto Li 
fi 
od 
od 
th := new tmp( ) 
append, block(i,ninsts,Block,(kind:binasgn, 
left:th,opdi:exp81,opr:exp62,0pd2:exp835) 
for each s € 8 do 
inst := Block[sel] [se2] 
case inst.kind of 
binasgn: Block[s01][s02] := <kind:valasgn, 
left:inst.left,opd:(kind:var,val:th?) 
binif: Block [s@1] [s@2] := <kind:valif, 
opd: <kind:var,val:th),lbl:inst.lbl> 
bintrap: Block[se1][s02] := <kind:valtrap, 
opd: (kind: var,val:th)>,trapno: inst .trapno> 
esac 
od 
od 
od | 
end || Hoist Exps 











图 13-34 (£X) 


1. Exp. Kind (k) 返回 种 类 为 的 MIR 指 令 中 包含 的 表达 式 的 种 类 (如 4.7 节 所 定义 的 )。 

2. Reach (exp, Block, ,jk) 返 回 true， 如 果 exp 在 基本 块 :末尾 的 定义 可 以 没有 损害 地 到 
达 基 本 块 ) 的 第 k 条 指令 ; 否则 返回 false。 

3. append, block(i, ninsts, Block, inst) 插入 指令 inst 在 基本 块 i 的 末尾 ， RH, 4H 
本 块 的 最 后 一 条 指令 是 条 件 分 支 指令 时 ， 插 入 该 指令 在 条 件 分 支 指令 的 前 面 ， 在 两 种 情况 下 ， 
它 都 相应 地 更 新 ninsts [i]. | 

4. Dominate (i,j) 返回 true， 如 果 基 本 块 i 是 基本 块 j 的 必 经 结 点 ， 否 则 返回 false。 

于 是 对 于 我 们 的 例子 ， 我 们 提升 B2 和 B3 中 c+d 的 计算 到 B1， 提 升 B3 和 B4 中 a+c 的 计算 到 
B3 ， 也 提升 B4 和 B5 中 a+p 的 计算 到 B3 ， 如 图 13-35 所 示 。 注 意 ， 局 部 公共 子 表达 式 删 除 现在 可 
以 用 

t3 -a+c 

f - t3 


替代 B3 中 a+c 的 元 余 计算 。 
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图 13-35 对 图 13-33 的 例子 程序 执行 代码 提升 的 结果 
13.6 小 结 


这 一 章 的 优化 都 与 宛 余 计 算 的 消除 有 关 ， 并 且 都 显 式 地 或 隐 式 地 需要 数据 流 分 析 。 它 们 都 
可 以 有 效 地 作用 于 中 级 中 间 代 码 或 低级 中 间 代 码 。 

在 这 四 种 优化 中 ， 第 一 和 第 二 种 与 第 三 种 之 间 有 着 显著 的 重 登 性 。 我 们 概括 它们 如 下 : 

1. 第 一 种 ， 即 公共 子 表达 式 删 除 ， 它 寻找 在 过 程 的 一 条 路 径 上 执行 了 两 次 以 上 的 表达 式 ， 
并 删除 第 一 次 计算 之 后 出 现 的 计算 ;只 要 在 这 之 间 没 有 改变 表达 式 的 操作 数 。 这 种 优化 儿 平 总 
是 能 改善 性 能 。 

2. 第 二 种 ， 即 循环 不 变 代码 外 提 ， 它 寻找 对 循环 的 每 一 次 选 代 都 产生 相同 结果 的 表达 式 ， 
并 将 这 种 表达 式 移 到 循环 之 外 。 它 几乎 总 是 能 显著 地 改善 性 能 ， 因 为 它 发 现 并 外 提 的 多 数 是 访 
问 数组 元 素 的 地 址 计算 。 

3. 第 三 种 ， 部 分 元 余 删 除 ， 它 移动 至 少 是 部 分 元 余 的 计算 ( 即 在 流 图 的 某 些 路 径 上 计算 多 
次 的 计算 ) 到 它们 的 最 佳 计 算 点 ， 并 完全 删除 元 余 的 计算 。 它 包含 了 公共 子 表达 式 删 除 、 循 环 
不 变 代码 外 提 ， 以 及 更 多 。 oe . i 

4. 最 后 一 种 ， 即 代码 提升 ， 它 寻找 在 从 某 一 点 开始 的 所 有 路 径 上 都 计算 的 表达 式 ， 并 用 在 
那 一 点 的 单个 计算 统一 它们 。 它 几乎 总 是 减少 程序 所 占 的 空间 ， 但 一 般 对 运行 时 的 性 能 没有 改 
善 ， 除 非 一 个 程序 中 存在 有 这 种 情况 的 众多 实例 。 

我 们 一 方面 介绍 了 公共 子 表达 式 删除 和 循环 不 变 代码 外 提 ， 另 一 方面 也 介绍 了 部 分 元 余 删 
除 ， 这 两 种 处 理 方法 具有 基本 相同 的 效果 和 作用 。 部 分 元 余 删 除 的 现代 公式 表述 也 为 其 他 可 以 
共享 部 分 数据 流 信息 的 优化 提供 了 思考 的 参照 模式 和 公式 化 表述 的 框架 。 可 以 预期 在 未 来 几 年 
中 这 种 优化 会 更 频繁 地 被 新 的 编译 器 所 采用 ， 并 替代 某 些 商业 编译 器 中 前 面 两 种 方法 的 组 合 。 

如 图 13-36 所 示 ， 宛 余 删 除 转 换 一 般 放 置 在 优化 处 理 过 程 的 中 间 。 


13.7 进一步 阅读 


部 分 完 余 删除 工作 最 初 是 由 Morel 和 Renvoise [MorR79] 开 始 的 ， 后 来 他 们 又 将 它 扩充 到 过 程 间 
的 形式 [MorR81]。 扩 充 古典 的 部 分 元 余 分 析 ， 以 包含 强度 削弱 和 归纳 变量 化 简 的 讨论 见 [Chow83]。 
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| 数组 引用 的 标量 替换 
.数据 高 速 缓存 优化 

























过 程 集成 
尾 调用 优化 ， 包 括 尾 递归 删除 
聚合 量 的 标量 替代 
稀有 条 件 常数 传播 
过 程 间 常数 传播 
过 程 特殊 化 和 克隆 
稀有 条 件 常数 传播 








全 局 值 编号 
局 部 和 全 局 复写 传播 
稀有 条 件 常数 传播 
死 代 码 删除 


C1 


局 部 和 全 局 公共 子 表达 式 删 除 
循环 不 变 代码 外 提 












归纳 变量 强度 削弱 . 
线性 函数 测试 替代 
归纳 变量 消除 

不 必要 边界 检查 删除 
控制 流 优 化 


C4 





分 支 优化 和 条 件 传送 

死 代码 删除 

软 流 水 ， 附 带 循环 展开 、 变 量 扩张 、 
寄存 器 重 命名 和 层次 归 约 

基本 块 和 分 支 调度 1 

图 着 色 寄存 器 分 配 

基本 块 和 分 支 调 度 2 

过 程 由 指令 高 速 缓存 优 化 


eRe Be 
过 程 间 指 令 高 速 缓存 优化 - 


图 13-36 在 激进 优化 编译 器 中 元 余 相 关 优化 (黑体 字 部 分 ) 的 位 置 
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最 近 ，Knoop、Riithing 和 Steffen 介 绍 了 一 种 只 需要 单 向 数据 流 分 析 的 形式 [KnoR92]。13.3 
节 介 绍 的 边 分 割 转换 是 由 Dhamdhere[Dham88] 开 发 的 。 扩 充 部 分 元 余 删 除 以 包含 强度 削弱 的 描 
述 见 [KnoR93]。 对 部 分 匈 余 删除 方法 的 改善 见 Briggs 和 Cooper 的 描述 [BriC94b], 关 于 Cooper 和 
Simpson 的 进一步 改善 见 [CooS95c] 和 [Simp96]。 | 


13.8 练习 


13.1 


13.2 


13.3 


13.4 
13.5 


13.6 


13.7 


13.8 


13.9 


如 13.1 节 指出 的 ， 公 共 子 表达 式 删除 可 能 不 一 定 总 是 有 益 的 。 给 出 (a) 一 组 保证 它 能 
获 益 的 判别 条 件 清单 ， 和 (b) 一 组 保证 它 不 能 获 益 的 判别 条 件 清单 。( 注 意 ， 存 在 着 
两 组 条 件 都 不 能 保证 的 中 间 状 态 。) 

用 公式 描述 与 可 用 表达 式 相反 的 数据 流 分 析 ， 即 一 种 向 后 数据 流 问 题 ， 此 间 题 中 ， 
一 个 表达 式 属于 EVA4L(i)， 如 果 它 在 基本 块 i 中 被 计 值 ， 并 且 表 达 式 中 的 变量 在 此 基本 
块 入口 到 给 定 的 计算 之 间 都 没有 改变 ， 其 中 的 路 径 合 并 运算 是 交 运 算 。 是 否 存在 这 
种 分 析 对 它 有 用 的 优化 问题 ? 

给 出 程序 的 一 个 无 穷 序 列 P, ， 已 ，…， 以 及 第 12 和 13 章 中 涉及 的 一 组 优化 ， 使 得 对 
于 每 一 个 i，P; 源 于 这 组 优化 的 i 次 重复 并 比 从 i 1 次 重复 能 获得 更 多 好 处 。 

写 出 对 整个 过 程 执行 向 前 替代 的 ICAN 例 程 Fwd_Subst (n,ninsts, Block). 

阐明 你 如 何 修改 图 13-17 中 的 Mark_Invar () 和 Mark_Block () 来 处 理 重 结合 。 它 
对 该 算法 的 运行 时 间 会 有 什么 预期 影响 ? 

给 出 一 个 能 清楚 说 明 从 里 向 外 进行 循环 不 变 代 码 外 提要 优 于 从 外 向 里 进行 的 循环 储 
套 的 例子 。 

用 公式 描述 归 约 识别 并 根据 它们 执行 循环 不 变 代码 外 提 的 算法 。 使 用 函数 
Reductor(opr) 确 定 操作 符 opr 是 否 执 行 归 约 运 算 的 操作 符 。 

存储 操作 下 移 (downward store motion) 是 一 种 代码 外 提 ， 它 将 循环 内 的 存储 操作 
移 到 循环 的 出 口 处 。 例 如 ， 图 13-31 的 E 部 分 的 Fortran 代 码 中 ， 变 量 a 是 存储 操作 下 移 
的 候选 一 一 对 它 的 赋值 ， 除 最 后 一 次 之 外 ， 其 他 都 是 无 用 的 ， 因 此 只 要 这 个 循环 至 
少 执 行 一 次 ， 将 它 移 到 循环 之 后 得 到 的 结果 就 是 相同 的 。 设 计 一 种 方法 检测 那些 可 
以 作为 存储 操作 下 移 的 候选 ， 并 写 出 检测 和 移动 它们 的 ICAN 代 码 。 存储 操作 下 移 对 
循环 内 的 寄存 器 需求 有 什么 影响 ? 

写 出 图 13-2 给 出 的 例 程 Local_CSE () 的 1istexp 情 形 对 应 的 代码 。 


13.10 写 出 一 个 实现 部 分 元 余 移 动 的 例 程 Move_Partial_Redun () 。 





m ^, ` 
$8142 循环 优化 
本 章 涉及 的 优化 是 一 些 专门 针对 循环 的 优化 ， 这 些 优化 虽然 也 可 用 于 别 的 结构 ， 但 作用 于 循 
环 时 最 有 效 。 它 们 可 以 作用 于 中 级 中 间 代 码 (如 MIR )， 也 可 以 作用 于 低级 中 间 代 码 (如 LIR)。 


这 些 优化 直接 应 用 于 Fortran 和 Pascal 的 规则 的 源 语言 循环 结构 ， [~ (expliexpl;exp3) 
但 对 于 C 之 类 的 语言 ， 则 需要 定义 能 应 用 这 些 优化 的 循环 子 集 。 具 体 
地 ， 我 们 定义 C 的 规则 循环 (well-behaved loop) (参见 图 14-1 中 的 代 iad C 的 tor 循环 形式 
码 ) 是 这 种 循环 : 其 中 exp1 是 给 整 值 变量 i 赋值 的 表达 式 ，exp2 是 与 
一 个 常数 相 比 较 的 表达 式 ， exp3 是 从 i 增加 或 碱 少 一 个 常数 的 表达 式 ， stmt 中 不 含 对 i 的 赋值 。 
类 似 的 定义 也 适应 于 由 if 和 goto 形 成 的 规则 循环 。 


14.1 归纳 变量 优化 


归纳 变量 (induction variable) 的 最 简单 形式 是 那 种 在 程序 的 某 个 部 分 ， 一 般 是 循环 中 ， 
其 后 继 值 形 成 一 个 算术 级 数 的 变量 。 循环 迭代 通常 用 一 个 称 作 循环 控制 变量 的 整 值 变量 来 计数 ， 
这 个 整 值 变量 每 迭代 一 次 便 增加 (或 减少 ) 一 个 常量 。 循 环 中 常常 还 有 另外 一 些 变量 ， 最 明显 
的 是 下 标 值 和 数组 元 素 的 地 址 ， 它们 也 遵循 与 循环 控制 变量 类 似 的 模式 ， 尽管 它们 可 能 具有 不 
同 的 初 值 、 终 值 和 迭代 方向 。 mE 
例如 ， 图 14-2a 中 的 Fortran 77 循 环 是 用 变量 i 来 计数 的 ， 它 的 初 值 为 1， 循环 每 迭代 一 次 它 
便 增 加 1， 终 值 为 100。 相 应 地 ， 给 a (i) 赋值 的 表达 式 的 初 值 为 200， 循 环 每 欠 代 一 次 它 便 减 少 
2, 终 值 为 2。a (i) 的 地 址 的 初 值 是 (adqr a), 





integer a(190) 







循环 每 迭代 一 次 ， 它 的 值 增加 4， 终 值 为 (addGr | integer a(100) ti = 202 
eee : MEGA ; do i = 1,100 do i = 1,100 
a) +396。 这 3 个 级 数 中 至 少 有 一 个 是 多 余 的 。 a(i) -202-2*i t1 -t1-2 


具体 而 言 ， 如 果 我 们 用 一 个 临时 变量 1 取代 | enado 
202-2*i 的 值 ， 则 可 以 将 这 个 循环 转换 成 如 图 
14-2b 所 示 的 形式 ， 或 如 图 14-3a 所 示 的 与 它 等 a) | (9 

价 的 MIR 代 码 。 这 是 一 个 对 归纳 变量 进行 强度 。 图 14-2 一 个 Fortran 77 归 纳 变量 的 例子 。 在 a) 中 ， 
削弱 优化 的 例子 : 它 用 一 个 减法 取代 了 一 个 乘 Wien CO 的 值 每 次 迭代 减少 2。 它 可 以 如 b) 所 示 ， 


ali) = t1 
enddo 





法 (和 一 个 减法 ) (参见 14.1.2 节 )。 现 在 i 只 用 用 一 个 加 法 取代 这 个 处 理 中 的 乘法 ， 
来 存储 迭代 次 数 ， 并 且 并 用 变量 ti 来 代表 这 个 值 
addr a(i) = (addr a)+4* i- 4 ` 


所 以 ， 我 们 可 以 用 一 个 临时 变量 来 替换 循环 控制 变量 1 ， 此 临时 变量 的 初 值 是 (aaar a), 4 
量 是 4， 终 值 是 (addr a)+396。 结 果 得 到 的 MIR 形 式 如 图 14-3b 所 示 。 
这 里 介绍 的 所 有 归纳 变量 优化 的 效果 都 可 通过 常数 传播 而 得 到 进一步 的 改善 。 


在 执行 归纳 变量 优化 时 应 记 住 的 一 个 问题 是 ， 有 些 体 系 结构 提 殿 了 基地 址 加 变 址 的 寻 址 


方式 ， 其 中 变 址 在 与 基地 址 相 加 之 前 可 以 按 比例 伸缩 2、4 或 8 倍 (如 PA-RISC 和 Intel 386 体 系 
结构 )。 而 有 些 体系 结构 提供 “自动 修改 ”方式 ， 即 在 存储 器 引用 之 前 或 之 后 ， 可 以 将 基 址 
和 变 址 之 和 存储 到 基 址 寄存 器 中 (如 PA-RISC、POWBER 和 VAX)。 系 统 中 存在 这 种 指令 可 能 
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有 利于 归纳 变量 的 删除 ， 因 为 ， 在 两 个 给 定 的 妇 纳 变量 中 选择 删除 哪 一 个 了 时， 一 个 可 能 对 伸 
缩 或 自动 修改 基地 址 寄存 器 敏感 ， 而 另 一 个 则 不 敏感 。 此 外 ， 由 于 类 似 的 原因 ，PA-RISC 的 
先 加 后 分 交 指 令 以 及 POWER 的 先 碱 后 分 支 条 件 指令 也 有 利于 线性 函数 测试 替换 (参见 图 14- 
4 和 14.1.4 节 )。 


ti « 202 
iei 


ti «- 202 
t3 < addr a 
t4< t3- 4 
tb «4 
t6 < t4 
.t7 © t3 + 396 
: t2 €- t6 > t7 t4 «- -396 
: if t2 goto L2 t5 «- t3 + 396 
ti «€ t1-2 | t2 «€ t4>0 
l l if t2 goto L2 
: ti € t1- 2 
t6 <- t4 + tb 


ti « 202 
t3 «- addr a 


: t2 < i > 100 
if t2 goto L2 


t6 «- t4 + t5 
*t6 < t1 
ie i+i 
goto Li 


t6 < t4 + t5 
*t6 €- t1 

tb «€ tb +4 
goto L1 


if t2 goto Li 





b) 


图 14-3 a) 是 图 14-2b 中 循环 的 MIR 形 式 ，b) 是 同 图 14-4 对 图 14-3b 代 码 中 t4 的 值 进行 偏 移 ， 使 
一 段 代 码 消除 了 归纳 变量 ;1 ， 外 提 了 循环 不 变 循环 能 用 0 作为 结束 测试 条 件 的 结果 。 其 中 也 
赋值 t3 — addr afüt4-t3- 4， 对 t5 执 行 “ 进行 了 循环 倒置 (参见 18.5 节 ) 

了 强度 前 能， 并 删除 了 归纳 变量 ;之 后 的 形式 


14.1.1 识别 归纳 变量 


为 了 有 利于 识别 ， 常 常 将 归纳 变量 分 为 基本 或 基础 归纳 变量 (basic or fundamental 
induction variable) 和 依赖 归纳 变量 (dependent induction variable )。 基 本 归纳 变量 是 在 循环 的 
每 一 次 迭代 中 显 式 地 加 或 减 一 个 相同 常量 的 变量 ; 依赖 归纳 变量 的 修改 或 计算 则 以 一 种 较为 复 
杂 的 方式 。 例 如 ， 在 图 14-2a 中 ，i 是 一 个 基本 归纳 变量 ， 而 表达 式 200-2 术 的 值 和 a (i) 的 地 
址 是 依赖 归纳 变量 。 与 之 对 比 的 是 ， 在 图 14-3b 所 示 的 这 段 代码 经 扩展 和 转换 后 的 MIR 形 式 中 ， 
归纳 变量 i 已 经 被 删除 ，t5 则 经 过 了 强度 前 弱 。t1i 和 t5 (它们 分 别 包 含 200-2*i 的 值 和 a (i) 
相对 a (0) 地址 的 地 址 偏 移 ) 都 变 成 基本 归纳 变量 了 。 : 

为 了 识别 归纳 变量 ， 我 们 一 开始 将 循环 中 的 所 有 变量 都 作为 候选 ， 并 给 找到 的 每 一 个 归纳 
变量 /确定 一 个 形 如 = b * biv + c 的 线性 方程 ， 该 方程 将 j 的 值 与 循环 内 的 biv 联 系 起 来 ， 其 中 biv 
是 基本 归纳 变量 ,，b 和 c 是 常量 (它们 可 以 是 实际 的 常数 ， 也 可 以 是 已 经 识别 出 的 循环 不 变 
量 ); piv、5 和 c 初 始 值 都 为 ri。 在 其 线性 方程 中 具有 相同 基本 归纳 变量 的 那些 归纳 变量 组 成 了 
一 个 类 (class), 这 个 基本 归纳 变量 叫做 它们 的 基 (basis)。 每 当 我 们 识别 出 一 个 变量 /是 潜在 
的 归纳 变量 时 ， 便 填 充 它 的 线性 方程 。 ; . ' 

l 归纳 变量 识别 可 以 通过 依次 查看 循环 体 中 的 指令 来 进行 ， 也 可 用 公式 表示 为 数据 流 问题 ， 
我 们 采用 的 是 前 一 种 方法 。 为 了 标识 基本 归纳 变量 ， 我 们 首先 寻找 这 种 变量 : 它们 在 循环 中 仅 
有 的 赋值 是 形 如 i — idi - d+i 的 赋值 ， 其 中 a 是 ( 正 或 负 的 ) 循环 常量 。 对 于 这 样 的 一 个 变量 
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其 线性 方程 简单 地 是 i =1* i+ 0， 并 且 i 是 一 个 归纳 变量 类 的 基 。 如 果 循环 中 对 i 有 两 个 以 上 的 这 
种 赋值 ， 我 们 将 这 个 基本 归纳 变量 分 成 若干 个 ， 每 个 赋值 对 应 一 个 。 例 如 ， 对 于 图 14-5a 中 的 
代码 ， 我 们 将 i 分 割 成 两 个 归纳 变量 i 和 t1， 如 图 14-5b 所 示 。 一 般 地 ， 给 定 如 图 14-6a 所 示 的 一 
个 两 次 赋值 的 基本 归纳 变量 ， 其 转换 后 的 代码 如 图 14-6b 所 示 。 这 种 方法 可 直接 推广 到 三 个 以 
上 赋值 的 情形 。 





b) 
图 14-5 分 割 一 个 有 两 次 赋值 的 基本 归纳 变量 a) 为 两 个 归纳 变量 b) 的 例子 


tl © ib- a 
i «€ ig i «- ig 
Li: . .. e.’ 
use of i use of i 
P€ita tl € t1 + (a; + a) 


use of i 





use of t1 
jeita je i+ (a +a) 
use of i use of i 
goto L1 goto L1 
a) b) 


图 14-6 分 割 一 个 有 两 次 赋值 的 基本 归纳 变量 a) 为 两 个 归纳 变量 b) 的 样板 


接着 ， 我 们 重复 地 考察 循环 体内 的 每 一 条 指令 ， 寻 找 满足 如 下 条 件 的 变量 / /出 现在 赋值 
的 左 部 ， 且 这 个 赋值 具有 表 14-1 所 列 的 形式 之 一 ， 其 中 i 是 一 个 归纳 变量 (基本 的 或 依赖 的 )，e 


是 一 个 循环 常量 。 如 果 i 是 基本 归纳 变量 ， 则 属于 i 类 ， 表 14-1 可 以 产生 依赖 归纳 
并 且 它 的 线性 方程 可 直接 从 定义 它 的 赋值 形式 得 出 ; 变量 的 赋值 类 型 
例如 ， 对 于 je * ij 的 线性 方程 是 = e * i 0。 如 j-i*e 

果 i 不 是 基本 归纳 变量 ， 则 它 属于 线性 方程 为 二 Ps + Je 

ci 的 某 个 基本 归纳 变量 的 类 ， 于 是 /也 属于 ha 类 ， 并 © debe 

且 它 的 线性 方程 (再 次 假定 定义 它 的 赋值 是 j = e * i) nd 

是 j =(e * bi)* ee*e. MARMARA TE o us 

一 步 的 要 求 。 首 先 ， 在 循环 中 ， 在 对 ;的 赋值 与 对 的 j--i 





赋值 之 间 没 有 对 六 的 赋值 ， 因 为 有 赋值 的 话 会 影响 /和 
ii 之 间 的 关系 ， 可 能 使 得 /根本 不 是 一 个 归纳 变量 ; 其 次 ，i 必 须 没 有 循环 外 的 定 值 到 达 j 的 这 个 
定 值 。 到 达 定 值 或 ud 链 可 用 来 检查 后 者 。 i 
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如 果 有 对 j 的 多 个 赋值 ， 但 是 它们 都 具有 表 14-1 给 出 的 形式 之 一 ， 则 我 们 将 分 成 若干 个 归 
纳 变 量 ， 每 个 归纳 变量 对 应 一 个 赋值 且 有 它 自己 的 线性 方程 。 

形 如 

jcile 
的 赋值 也 可 以 改变 成 适合 所 要 求 的 条 件 : 如 果 我 们 首先 展开 循环 体 f the, f 是 e 的 倍数 ( 见 17.4.3 
节 )， 则 的 线性 方程 是 i = (f/1e) *i+ 0， 其 中 假设 i 冲 基 本 归纳 变量 。 

对 已 经 填充 过 的 变量 /， 如 果 还 需要 在 它 的 线性 方程 中 填充 不 同 的 基本 归纳 变量 、2 值 或 < 
值 ， 我 们 也 如 前 面 所 述 一 样 ， 将 这 个 归纳 变量 分 为 两 个 。 

如 果 对 一 个 潜在 归纳 变量 的 修改 出 现在 一 个 条 件 转移 的 分 支 上 ， 则 在 另 一 个 分 支 上 也 必须 
存在 与 之 对 称 的 修改 。 

图 14-7 中 的 例 程 Find_IVs () 和 图 14-18 中 的 辅助 例 程 实现 了 上 面 所 述 的 大 部 分 功能 。 它 
们 忽略 了 循环 中 含 多 个 赋值 的 归纳 变量 的 情形 ， 以 及 在 条 件 转移 的 一 个 分 支 中 定 值 的 归纳 变量 
在 另 一 个 分 支 也 必须 有 这 样 一 个 定 值 与 之 平衡 的 要 求 。 它 们 使 用 了 下 述 几 个 国 数 : 

1. Loop. Const (opnd, bset, nblocks, Block) 返回 true， 如 果 opnd 是 一 个 常数 ， 或 者 
是 由 pset 中 的 基本 块 所 组 成 的 循环 的 一 个 循环 常量 ; 否则 返回 false。 

2. Assign, Between (var, i, j, k, l, bset, nblocks，Block) 返 回 true， 如 果 变量 var 在 
指令 Blockfil[ 刀 和 指令 Block[ 相 [0 之 间 的 某 条 路 径 上 被 庙 值 ;否则 返回 fal se。 

3. No. Reach, Defs (var, i, j, bset, nblocks, Block) 返 回 true， 如 果 循 环 外 没有 对 变量 
var 定 值 并 到 达 指 令 Block[i]0] 的 指令 ; 否则 返回 false。 


IVrecord: record {tiv,biv: Var, 
blk,pos: integer, 
fctr,diff: Const) 

IVs: set of IVrecord 


procedure Find IVs(bset,nblocks,ninsts,Block) 
bset: in set of integer 
nblocks: in integer 
ninsts: in array [1--nblocks] of integer 
Block: in array [i::nblocks] of array [--] of MIRInst 
begin 
inst: MIRInst 
i, j: integer 
var: Var 
change: boolean 
opsi, ops2: enum {opdi,opd2} 
iv: IVrecord 
IVs := 6 
for each i € bset do 
for j := 1 to ninsts[i] do 
inst := Block[i] [j] 
case inst.kind of 
|| search for instructions that compute fundamental induction 
|| variables and accumulate information about them in IVs 


binasgn: if IV. Pattern(inst,opdi,opd2,bset,nblocks,Block) 
V IV.Pattern(inst,opd2,opdi,bset,nblocks,Block) then 
IVs v= ((tiv:inst.left,blk:i,pos:j,fctr:1, 
biv:inst.left,diff:0>} 





图 14-7 识别 归纳 变量 的 代码 
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fi 


default: esac 
od 
od 
repeat 
change := false 
for each i € bset do 
for j := 1 to ninsts[i] do 


inst := Block[i][j] 
case inst.kind of 
|| check for dependent induction variables 
|| and accumulate information in the IVs structure 
binasgn: change := Mul_IV(i,j,opdi,opd2, 
bset,nblocks,ninsts,Block) 
change V= Mul IV(i,j,opd2,opdi, 
bset,nblocks,ninsts,Block) 
change V= Add IV(i,j,opdi,opd2, 
bset,nblocks,ninsts,Block) 
change V= Add_IV(i,j,opd2,opdi, 
bset ,ninsts, Block) 


default: 





od 
od 
until !change 
end || Find IVs 









procedure IV. Pattern(inst,opsi,ops2,bset,nblocks,Block) 
returns boolean 
inst: in Instruction 
opsi,ops2: in enum {opd1,opd2} 
bset: in set of integer 
nblocks: in integer 
Block: in array (1::nblocks] of array [--] of MIRInst 
begin 
return inst.left = inst.opsi.val & inst.opr = add 

& Loop. Const (inst .ops2,bset ,nblocks , Block) 

& !3iv € IVs (iv.tiv = inst.left) 
|| IV Pattern 













end 


图 14-7 (8) 


procedure Mul IV(i, j,opsi,ops2,bset,nblocks,ninsts,Block) returns boolean 
i, j: in integer 
opsi, ops2: in enum (opdi,opd2) 
bset: in set of integer 
nblocks: in integer 
ninsts: in array [1:-nblocks] of integer 
Block: in array [1-:nblocks] of array [++] of MIRInst 
begin 
inst :- Block[i][j): MIRInst 
_ ivi, iv2: IVrecord 
if Loop. Const (inst. opsi,bset, nblocks, Block) 
& inst.opr = mul then 
if 3ivi € IVs (inst.ops2.val = ivi.tiv 
& ivi.tiv = ivl.biv & ivi.fctr 





















图 14-8 识别 归纳 变量 时 使 用 的 辅助 例 程 





0 










































& ivi.diff = 0) then 
IVs v= (4tiv:inst.left,blk:i,pos:j, 
fctr:inst.ops1.val,biv:ivi.biv,diff:0>} 
elif jiv2 € IVs (inst.ops2.val = iv2.tiv) then 
if !Assign_Between(iv2.biv,i,j,iv2.blk,iv2.pos, 
bset ,nblocks , Block) 
& No_Reach_Defs(inst.ops2.val,i,j,bset, 
nblocks,Block) then 
IVs v= {<tiv:inst.left,blk:i,pos:j, 
fctr:inst.opsi.val*iv2.fctr,biv:iv2.biv, 
diff:inst.opsi.val*iv2.diff)) 
fi 
fi 
return true 





fi 
return false 
end || Mul IV 


procedure Add IV(i,j,opsi,ops2,bset,nblocks,ninsts,Block) returns boolean 
i, j: in integer 
opsi, ops2: in enum {opd1,opd2} 
bset: in set of integer 
nblocks: in integer 
ninsts: in array [:-] of integer - 
Block: in array (::] of array [::] of MIRInst 
begin 
inst := Block[i] [j]: in MIRInst 
ivi, iv2: IVrecord 
if Loop.Const(inst.opsi,bset,nblocks,Block) 
& inst.opr = add then ' 
if Jivi € IVs (inst.ops2.val = ivi.tiv 
& ivi.tiv = ivi.biv & ivi.fctr = 1 
& ivi.diff = 0) then 
IVs v= ((tiv:inst.left,blk:i,pos:j, 
fctr:1,biv:ivi.biv,diff:inst.ops1.val>} 
elif 3iv2 € IVs (inst.ops2.val = iv.tiv) then 
if !Assign.Between(iv2.biv,i,j,iv2.blk,iv2.pos, 
bset ,nblocks ,Block) 
& No. Reach. Defs(inst.ops2.val,i,j,bset,' 
nblocks,Block) then 
IVs v= ((tiv:inst.left,blk:i,pos:j, 
fctr:iv2.fctr,biv:iv2.biv, 
diff:iv2.diff+inst .ops1.val>} 





return true 
fi ‘ 
return false 

_ | end || Add IV 





图 14-8 (5) 

这 些 例 程 还 使 用 了 由 IVrecoras 组 成 的 集合 IVs ， 其 中 IVrecords 记 录 归 纳 变 量 、 它 们 
的 线性 方程 以 及 定义 它们 的 语句 所 在 的 基本 块 和 位 置 。 图 14-7 中 声明 的 记录 

<tivivarl, blk:i, pos:j, fctr:cl, biv:var, diff:c2- 


HRS Block hE L-NAME Rtvarl ， 它 属于 基本 归纳 变量 var 的 类 ， 并 且 且 有 线性 方程 


varl =cl * var + c2 
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注意 ， 循 环 内 为 常数 值 的 表达 式 ， 如 
inst.opdl.val * iv2.fctr f 


和 


iv2.diff + inst.opdi.val 


可 能 有 编译 时 不 知道 的 值 一 一 它们 可 能 仅仅 是 循环 常量 。 在 这 种 情况 下 ， 我 们 需要 将 这 种 循环 430 
常量 表达 式 记 录 在 IVrecords 中 ， 并 在 循环 前 置 块 中 生成 计算 其 值 的 指令 。 432 
作为 这 种 归纳 变量 识别 方法 的 一 个 小 例子 ， 考 虑 图 14-3a 的 MIR 代 码 。 我 们 遇 到 的 第 一 个 
基本 归纳 变量 是 t1 ， 它 在 循环 内 惟一 的 赋值 是 1 ~ t1-2; 它 的 线性 方程 是 t1=1*t1+0。 惟 
一 的 另 一 个 基本 归纳 变量 是 i ， 它 的 线性 方程 是 i1=1*i+0。 接 下 来 我 们 发 现 t5 是 一 个 具有 线性 
方程 t5 = 4*i+0 的 依赖 归纳 变量 。 最 后 ， 我 们 识别 出 t6 是 另 一 个 属于 i 类 的 依赖 归纳 变量 (A 

为 (adar a) ， 即 t3 的 值 ， 是 循环 常量 )， 它 的 线性 方程 是 L6=4*i+ (addr a). 
















t7 © t6 + t2 
t8 < [t7) (4) 
t9 «— Bei 

t10 «€ t8 + t9 
tii < addr a 
tl2 «€. 100 * k 
t13 «€ t12 +j 
t14 < t13 - 101|" 
tl5 «- 4 * t14 

ti6 < t15 + tli 
{t16](4) € t10 
kek+1 


图 14-9 归纳 变量 识别 的 第 二 个 例子 


作为 归纳 变量 识别 过 程 的 另 一 个 例子 ， 考 虑 图 14-9 中 的 MIR 代 码 。 我 们 从 基本 块 B4 和 B5 
组 成 的 内 层 循环 开始 。 这 个 循环 中 只 有 一 个 基本 归纳 变量 kx， 因 此 IVs ( 它 初始 为 空 ) 变 为 


IVs = {<tiv:k, blk:B5, pos:17, fctr:1, biv:k, diff! 0>} 


接着 识别 出 t12 是 k 类 中 的 一 个 归纳 变量 ， 于 是 IVs 变 成 
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IVs = («tiv:k, blk:B5, pos:17, fctr:1, biv:k, diff:0», 
«tiv:t12, blk:B5, pos:11, fctr:100, biv:k, diff:0>} 
然后 识别 出 t13 是 k 类 中 的 一 个 归纳 变量 ， 因 此 有 
IVs = {<tiv:k, blk:B5, pos:17, fctr:1, biv:k, diff:0>, 
<tiv:t12, blk:B5, pos:11, fctr:100, biv:k, diff:0>, 
«tiv:ti3, blk:B5, pos:12, fctr:100, biv:k, diff:j>} 
临时 变量 t14、t15 和 t16 也 都 被 识别 出 是 k 类 中 的 归纳 变量 ， 于 是 ， 我 们 最 终 得 到 


IVs = ((tiv:k, blk:B5,pos:17,fctr:1, biv:k,diff:0>, 
<tiv:t12,b1k:B5,pos:11,fctr:100,biv:k,diff:0>, 
(tiv:t13,blk:B5,pos:12,fctr:100,biv:k,diff:j?, 
(tiv:t14,blk:B5,pos:13,fctr:100,biv:k,diff:j-1015, 
(tiv:tib,blk:B5b,pos:14,fctr:400,biv:k,diff:4*j-404), 
(tiv:ti6,blk:B5,pos:15,fctr:400,biv:k, 

diff:(addr a)+4*j-404>} . 


注意 , t2、t3、t4、t5、t6、t7、t9 和 tl11 都 是 内 层 循环 的 循环 不 变量 ， 但 我 们 在 这 
里 不 讨论 它们 ， 因 为 它们 之 中 除了 t11 之 外 都 与 定义 归纳 变量 无 关 。 

现在 ， 在 由 基本 块 B2、B3、B4、B5 和 B6 组 成 的 外 层 循环 中 ， 变 量 1 是 第 一 个 被 识别 出 来 
的 归纳 变量 ， 它 设置 

IVs = («tiv:l, blk:B6, pos:1, fetr:1, biv:l, diff:0>} 
i 是 下 一 个 识别 出 的 归纳 变量 ， 导 致 

IVs = («tiv:l, blk:B6, pos:1, fctr:l, biv:1, diff:0>, 

«tiv:i, blk:B6, pos:2, fctr:l, biv:i, diff:0>} 

之 后 ，B3 中 的 t1 被 加 入 进来 ， 产 生 


IVs = {<tiv:l, blk:B6,pos:1,fctr:i,biv:l,diff:O05, 
(tiv:i, blk:B6,pos:2,fctr:1,biv:i,diff:0>, 
(tiv:ti,blk:B3,pos:i,fctr:3,biv:i,diff:05) 


现在 ， 注 意 j 也 是 一 个 归纳 变量 ， 但 很 可 能 多 数 编译 器 都 发 现 不 了 这 一 事实 。 需 要 使 用 代 
数 或 符号 算术 才能 确定 下 面 的 事实 : 在 基本 块 B1 的 出 口 ， 我 们 有 1+i=101， 并且 修改 1 和 i 的 
惟一 基本 块 B6 保 持 了 这 个 关系 ， 因 此 

j= tl + 1 = 3*i + 1 = 2*i + (i + l1) = 2*i + 101 

发 现 不 了 这 一 事实 是 不 幸 的 ， 因 为 假如 能 够 识别 出 j 是 归纳 变量 的 话 ， 内 层 循环 的 几 个 特 
环 不 变量 (上 面 提 到 的 ) 就 可 以 也 是 外 层 循环 的 归纳 变量 。 

一 旦 识别 出 所 有 的 归纳 变量 ， 我 们 便 可 对 它们 施加 三 种 重要 的 转换 : 强度 削弱 、 归 纳 变量 
删除 和 线性 函数 测试 替换 。 


14.1.2 强度 削弱 
强度 削弱 (strength reduction) 用 代价 较 小 的 运算 ， 如 加 和 减 ， 替 代 代价 较 大 的 运算 ， 如 


RARR. CALLE FUERE AENDA ES 例如 ， 序 列 
0, 3, 6, 9, 12, - 


的 一 阶 差分 (anda ee zit) 都 由 3 组 成 ， 因 此 可 以 写 为 5 = 3 * i，i= 0, 1, 2, …， 或 写 为 
si+1=s+3， 其 中 =.0。 第 二 种 形式 是 强度 削弱 版 本 一 我 们 用 加 法 替代 乘法 。 类 似 地 ， 序 列 
0, 1,4, 9, 16, 25, - 
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的 一 阶 差分 是 

1, 3, 5, 7, 9,，… . 
且 二 阶 差分 都 由 2 组 成 。 它 可 以 写成 s; =i, i= 0, 1 ,2, 3,…; 或 写成 sl =s + 2*i + 1， 其 中 so= 
0; mcus =S +t, 其 中 ti, 24592, s = OHH 21. XE, 在 二 次 有 限 差分 运算 之 后 ， 我 们 已 
将 一 系列 的 平方 计算 简化 成 用 两 个 加 法 运算 替代 一 个 平方 运算 。 强 度 削 弱 并 不 只 局 限于 用 加 替 
代 乘 和 用 增 量 操作 替代 加 操作 ，Allen 和 Cocke [AllC81] 讨 论 了 与 它 有 关 的 一 系列 应 用 ， 如 用 乘 
法 运算 替代 指数 运算 ， 用 减法 替代 除法 和 求 模 运 算 。 但 是 ， 我 们 这 里 只 讨论 简单 的 强度 削弱 ， 
因为 它们 使 用 最 频繁 ， 并 且 通 常 从 它们 获得 的 好 处 也 最 大 。 其 他 情形 的 处 理 方法 大 体 上 是 类 似 
的 ， 在 14.4 节 给 出 的 引文 中 可 以 找到 这 些 方法 。 

为 了 对 循环 中 已 识别 出 的 归纳 变量 执行 强度 削弱， 我 们 依次 处 理 每 一 类 归纳 变量 。 

1. 令 是 基本 归纳 变量 , 令 j 是 具有 线性 方程 j=b* ie c 的 i 类 归纳 变量 。 

2. 分 配 一 个 新 临时 变量 j#y， 并 肌 tj 替代 循环 中 对 ;的 单一 赋值 。 

3. 在 循环 中 每 一 个 对 i 的 赋值 i~i+ d 之 后 ， 插 入 赋值 # — tj e db， 其 中 db 是 常数 值 表达 式 d 
* b 的 值 (如 果 这 个 值 不 是 实际 的 常数 ， 而 只 是 一 个 循环 常量 ,分 配 一 个 新 的 临时 变量 4b， 并 
将 赋值 4b — d * b 放 在 循环 的 前 置 块 中 。) 

4. 将 一 对 赋值 

tj — b*i 

tj- tj+c 
放置 在 前 置 块 的 末尾 ， 以 保证 # 被 适当 地 初始 化 。 

5. 用 4 替代 循环 中 的 每 一 个 j。 

6. 最 后 ， 以 线性 方程 上 = b * i+ c 将 加 入 到 i 的 归纳 变量 类 中 。 

图 14-10 是 实现 这 一 算法 的 例 程 Strength_Reduce () 。 如 果 对 基本 块 i 中 的 指令 j 已 执行 
过 强度 前 弱 ， 则 数组 SRaone 有 SRdone[lD]=true; 否则 为 false。Strength_Reduce () 
用 到 了 如 下 两 个 国 数 : 

1. Insert  after(i, j ninsts, Block, inst) 将 指令 inst 插 入 到 基本 块 Block [让 的 第 j 条 
指令 之 后 ， 并 更 新 表示 程序 的 数据 结构 以 反映 这 样 做 的 结果 (参见 图 4-14)。 

2. Append, Preheader (bset, ninsts, Block, inst) 将 指令 inst 插 入 到 基本 块 Block [i] 
的 末尾 ， 基 本 块 是 由 bset 中 基本 块 组 成 的 循环 的 前 置 块 ， 并 更 新 表示 程序 的 数据 结构 以 反映 这 
样 做 的 结果 。 
















procedure Strength Reduce(bset,nblocks,ninsts,Block,IVs,SRdone) 
bset: in set of integer 
nblocks: in integer 
ninsts: inout array [1::nblocks] of integer 
Block: inout array [i::nblocks] of array [::] of MIRInst 
IVs: inout set of IVrecord 
SRdone: out array [1:-nblocks] of […] of boolean . 


begin 
i, j: integer 
tj, db: Var 


iv, ivi, iv2: IVrecord 
inst: MIRInst 

for each i € bset do 
for j := 1 to ninsts[i] do 


图 14-10 归纳 变量 强度 削弱 代码 
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SRdone[i][j] := false 
od 
od . 
|| search for uses of induction variables 
for each ivi € IVs (ivi.fctr = 1 & ivi.diff = 0) do 
for each iv2 € IVs (iv2.biv = ivi.biv 
& iv2.tiv * iv2.biv) do 
tj := new tmp( ); db := new tmp( ) 
i := iv2.blk; j := iv2.pos 
SRdone[il[j] := true 
|| and split their computation between preheader and 
|| this use, replacing operations by less expensive ones 
append, preheader (bset ,ninsts,Block,(kind:binasgn, 
left:db,opr:mul,opdi:(kind:const,val:ivi.diff), 
opd2: (kind: const, val:iv2.fctr>>) 
append_preheader (bset ,ninsts ,Block, (kind: binasgn, 
left:tj,opr:mul, opd1:<kind: const ,val:iv2.fctr>, 
opd2: <kind: var, val:iv2.biv>>) 
append. preheader (bset ,ninsts , Block, <kind:binasgn, 
left :tj,opr:add,opd1: (kind: var,val:tj>, 
opd2: <kind: const ,val:iv2.diff>>) 
insert after(i,j,ninsts,Block,(kind:binasgn,left:tj,opr:add, 
opdi:€kind:var,val:tj?,opd2:(kind:var,val:db)?) 
IVs u= {<tiv:tj,blk:i,pos:jti,fctr:iv2.fctr*ivi.fctr,biv:iv2.biv, 
diff:iv2.diff>} 
for each i € bset do 
if ivi.tiv = iv2.tiv then 
for each iv € IVs do : 
IVs := (IVs - (iv)) u (Xtiv:iv.tiv, 
blk:iv.blk,pos:iv.pos,fctr:iv.fctr, 
biv:tj,diff:iv.diff)) — 









































od 
fi 
for j := 1 to ninsts[i] do 
inst := Block[i] [j] 
case Exp.Kind(inst.kind) of 
binexp: if inst.opdi.val = iv2.tiv then 
Block[i][j].opdi := <kind:var,val:tj> 
fi 
if inst.opd2.val = iv2.tiv then 
Block[il[jl.opd2 := <kind:var,val:tj> 
fi 2 
unexp: if inst.opd.val - iv2.tiv then 
Block[il[jl.opd := <kind:var,val:tj> 
fi i 


listexp: for j := 1 to linst.args| do 
: if inst.argsliei.val = iv2.tiv then 


Block[i] [j] argstie1 := <kind:var,val:tj> 








od 
od 
od 
od 
end || Strength. Reduce 


图 14-10 (4) 
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对 于 图 14-3a 的 MIR 例 子 ， 这 里 将 它 重新 给 出 在 图 14-11a 中 。 我 们 首先 考虑 归纳 变量 tL5， 它 
的 线性 方程 是 t5 =4*i+0。 我 们 分 配 一 个 新 临时 变量 t7， 并 用 t5 一 上 7 替代 对 t5 的 赋值 。 然 后 
将 t7 一 t7+4 插 入 在 i i+1 之 后 ,将 t7 4 插入 在 前 置 块 中 。 最 后 为 i 类 中 的 归纳 变量 t7 创 建 线 
性 方程 -7=4*i+0， 并 将 结果 得 到 的 记录 放置 到 IVs 中 ， 这 生成 图 14-11b 中 的 代码 。 对 t6 以 线性 
方程 tL6=4*i+t4 执 行 同样 的 转换 ， 并 从 循环 中 删除 循环 不 变量 t3 和 t4， 从 而 得 到 图 14-12 中 的 
人 代码。 注意， 这 些 转换 已 增 大 了 代码 的 体积 一 一 这 个 循环 现在 有 11 条 指令 ， 而 不 是 开始 时 的 9 条 。 
我 们 的 下 一 个 任务 是 删除 归纳 变量 ， 它 能 够 恢复 代码 的 体积 ， 也 常常 能 使 代码 得 到 改善 。 


tl «- 202 


ti <- 202 
iet 


: t2 € i > 100 
if t2 goto L2 
ti © ti -2 
t3 < addr a 
t4 «- t3- 4 
tb «-4*i 
t6 «- t4 + t5 
*t6 © ti 

i*i-*1 


goto Li 


ti < 202 
ie 1 
t7 <« 4 

: t2 < i > 100 
if t2 goto L2 
ti © t1 - 2 
t3 < addr a 
t4 «€ t3- 4 
t5 « t7 


t6 «- t4 + t5 
*t6 < ti 
i<iti 
t7 «€ t7 * 4 
goto L1 





i< 1 
t7 < 4 
t3 < addr a 
t4 «- t3- 4 
t8 «- t4 + t7 


: t2 «€ i > 100 


if t2 goto L2 
ti «€ ti -2 
tb «- t7 


t6 < t8 
*t6 < ti 
i*€i*1 
t8 <- t8 +4 





t7 «€ t7 +4 
goto L1 








a) b) 


图 14-11 a) 图 14-3a 中 循环 的 MIR 形 式 ，b) 同样 的 代码 对 。 图 14-12 图 14-11b 中 代码 删除 循环 不 变量 
归纳 变量 t5 执 行 了 强度 削弱 后 的 形式 t3 和 t4， 并 对 t6 进 行 强度 削弱 后 的 结果 


对 于 前 一 节 的 第 二 个 例子 ， 即 图 14-9， 我 们 在 图 14-13 中 给 出 的 是 它 的 内 层 循环 ， 以 及 内 
层 循环 的 前 置 块 。 它 的 归纳 变量 记录 集合 (与 在 前 一 节 计 算 的 一 样 , 但 对 位 置 重 新 进行 了 编号 ， 
以 反映 被 删除 的 循环 不 变量 ) 如 下 : 

IVs = ((tiv:k, blk:B5,pos:9,fctr:1， biv:k,diff:0>, 
(tiv:t12,blk:B5,pos:3,fctr:100,biv:k,diff:05, 
<tiv:t13,b1k:B5,pos:4,fctr:100,biv:k,diff:j>, 
<tiv:t14,b1k:B5,pos:5,fctr:100,biv:k,diff: 4-101), 
<tiv:t15,blk:B5,pos:6,fctr:400,biv:k,diff:4*j-404), 
<tiv:t16,blk:B5,pos:7,fctr:400,biv:k, 

diff: (addr a)+4*j-404>} 

这 个 算法 初始 设置 
<tiv:k, blk:B5, pos:9, fctr:1, biv:k, diff:0> 
<tivitl2, blk:B5, pos:3, fctr:100, biv:k, diff:0> 


ivl = 


iv2 


并 分 别 分 配 临 时 变量 t17 和 t18 作 为 tj 和 qb 的 值 ， 设 置 i=B5、 j-3füsRdone [B5] [3] =true。 


接着 ， 它 将 如 下 指令 添加 到 前 置 块 (基本 块 B3 ) 的 末尾 : 


t18 < 100 * 1 
t17 «- 100 * k 
ti7 < t17 + 0 


将 指令 


tl7—-t17 + t18 


添加 到 基本 块 B5 的 末尾 ， 并 设置 
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IVs = {<tiv:k, 











(tiv:ti2,blk:B5,pos:3, fctr 
(tiv:ti3,blk:B5b,pos:4, fctr 
<tiv:t14,blk:B5,pos:5, fctr 
<tiv:t15,b1k:B5,pos:6, fctr 


diff:(addr a)+4*j-404>, 
(tiv:t17,blk:B5,pos:10,fctr 





B3 






个 个 个 个 个 个 个 个 个 个 


ct 
名 


tii < addr a 


t8 «- [t6] (4) 


tiO < t8 + t9 
t12 < 100 * k 
t13 € t12 +j 
ti4 © t13 - 101 
t15 < 4 * t14 
t16 < t15 + t11 
[t16] (4) < t10 
k € k*1 


接 下 来 ， 该 例 程 设 置 


iv2 


2 «tiv:t13, blk:B5, pos:4, 


t20 « 100 * 1 
t19 «€ 100 * k 
ti9 «€ t17 * j ~ 


在 基本 块 B5 的 末尾 添加 指令 


blk:B5,pos:9, fctr: 


#14 * 


1, biv:k,diff:0>, 


:100,biv 
:100,biv 
:400 ,biv 
<tiv:t16,b1k:B5,pos:7, fctr: 


:100,biv 


图 14-13 从 我 们 第 二 个 例子 (图 14-9) 的 内 层 循 环 
删除 了 循环 不 变量 ， 并 删除 了 外 层 循环 但 保留 了 
其 中 的 B3 的 结果 ，B3 是 内 层 循环 的 前 置 块 


fctr:100, 


:100,biv:k,diff:0>, 
:k,diff:j>, 
:k,diff:j-101), 
:k, diff :4*j-404), 
400, biv: 


:k,diff:100>} 
最 后 ， 该 例 程 用 t17 替 代 所 有 的 t12。 注 意 ， 桂 入 到 前 置 块 中 的 两 条 指令 ( 即 t18 一 100*i 和 


t17+t17+0) 是 不 必要 的 (关于 删除 它们 的 方法 参见 练习 14.3)， 设 置 t12 的 指令 保留 在 基本 
块 B5 中 《归纳 变量 删除 将 去 掉 它 )。 结 果 在 图 14-14 中 给 出 。 










B3 
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tii < addr a 
t18 < 100 * 1 
t17 < 100 * k 
t17 €- t17 + 0 









t8 < [t6](4) 


t10 «- t8 + t9 
t12 < 100 * k 
tl3 © t17 +j 
tl4 «- t13 - 101 
tib «- 4 * t14 


t16 «€ t15 + tii 
[t16](4) «- t10 
k € kt1 

t17 < t17 + t18 


图 14-14 在 图 14-13 的 代码 中 对 t12 进 行 


强度 削弱 后 的 结果 


biv:k, diff:j» 


并 进行 类 似 的 处 理 : 分 配 t19 和 t20 分 别 作为 tj 和 ab 值 ， 设 置 1=B5、j=4 和 
SRdone [B5] [4] =true。 然 后 ， 在 前 置 块 (基本 块 B3 ) 的 末尾 添加 下 列 指令 : 
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t19 — t19 + t20 


并 设置 
IVs = ((tiv:k, 


blk:B5,pos:9, fctr: 


(tiv:t12,blk:B5,pos:3, fctr: 
<tiv:t13,b1k:B5,pos:4, fctr: 
<tiv:t14,b1k:B5,pos:5, fctr: 
<tiv:t1i5,b1k:B5,pos:6, fctr: 
<tiv:t16,b1k:B5,pos:7, fctr: 

diff :4*j-404+(addr a)», 
(tiv:ti7,blk:B5,pos:10,fctr: 
<tiv:t19,blk:B5,pos:11,fctr:100,biv:k,diff:j>} 


1, biv:k,diff:0), 
100 ,biv:k,diff:0, 
100,biv:k,diff:}>, 
100, biv:k,diff:j-101>, 
400, biv:k, diff :4*j-404), 
400, biv:k, 


100,biv:k,diff:100), 





最 后 ， 例 程 用 t19 替 换 所 有 的 t13。 注 意 ， 这 次 又 有 插入 到 前 置 块 的 两 条 指令 ( 即 t18 100*1 
和 t17 ~t17+0) 是 不 必要 的 ， 并 且 设 置 t13 的 指令 保留 在 基本 块 B5 中 ， 图 14-15 给 出 了 结果 。 






tt, 





个 个 个 个 个 个 个 个 个 个 个 个 个 人 














t8 «- [t6] (4) 
tiO «- t8 + t9 
t12 < 100 * k 
ti3.«- t17 +j 
tl4 < t19 - 101 
tib < 4 * t14 
t16 © t15 + til 
[t16] (4) < t10 
kek+i 

ti7 < ti7 + t18 
t19 <- t19 + t20 


图 14-15 对 图 14-14 部 分 流 图 中 的 t3 进 行 强度 削弱 后 的 结果 
我 们 让 读者 完成 这 个 例子 。 结 果 得 到 的 集合 IVs 应 当 是 


IVs = {<tiv:k, 


blk:B5,pos:9, fctr:1, biv:k,diff:0>, 


<tiv:t12,b1k:B5,pos:3, fctr:100,biv:k,diff:05, 


<tiv:t13,b1k:B5,pos 


fctr:100,biv:k,diff:j>, 


:4, 
<tiv:t14,b1k:B5,pos:5, fctr:100,biv:k,diff:j-101>, 
:6, 


(tiv:tib5,blk:B5,pos 


fctr:400,biv:k,diff:4*j-4045, 





À 


(tiv:t16,blk:B5,pos:7, fctr:400,biv:k, 

diff :4*j-404+(addr a)>, 
<tiv:t17,blk:B5,pos:10,fctr:100,biv:k,diff:0>, 
<tiv:t19,b1k:B5,pos:11,fctr:100,biv:k,diff:j>, 
(tiv:t21,blk:B5,pos:12,fctr:100,biv:k,diff:j-1015, 
(tiv:t23,blk:B5,pos:13,fctr:400,biv:k,diff:4*j-404), 
(tiv:t25,blk:B5,pos:14,fctr:400,biv:k, 

diff:4*j-404*(addr a)>} 


且 仅 当 i=3,4,…,7 时 SRdone [B5] [ 门 =true， 所 产生 的 部 分 流 图 在 图 14-16 中 给 出 。 




















B3 


- 101 


* j - 404 


个 个 个 个 个 个 个 个 个 个 个 个 个 个 个 人 
8 

+ eet HEE HH 9 koX * EE 

PW PR Pu WRU Re OW 


* j - 404 + (addr a) 





t8 < [t6](4) 


t10 « t8 + t9 
ti2 <- 100 * k 
tl3 € t17 +j 
tl4 < t19 - 101 
ti5 <- 4 * t21 
t16 «€ t23 + t11 
[t25] (4) «€ t10 
kek+i 
t17 «- t17 + t18 
t19 < t19 + t20 
t21 < t21 + t22 
t23 < t23 + t24 
< t25 + t26 





t25 


图 14-16 对 图 14-15 中 部 分 流 图 中 剩余 归纳 变量 进行 强度 削弱 后 的 结果 
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当然 ，B3 中 的 某 些 表达 式 ， 如 4*j -404+ (addr a), ， 并 不 是 合 靶 的 MIR 代 码 ， 但 它们 显 
然 可 展开 为 合法 的 MIR 代 码 。 

删除 死 代 码 ， 做 常数 折 生 ， 并 删除 B3 中 的 无 用 赋 
值 之 后 得 到 了 图 14-17 所 示 的 部 分 流 图 。 注 意 对 t8、 
t10、t12、t13、t14、t15 和 ft16 的 赋值 指令 也 都 
是 死 代码 。 

Knoop、Riithing 和 Steffen [KnoR93] 给 出 了 一 种 
基于 他 们 的 部 分 元 余 删 除 方法 做 强度 削弱 的 方法 〈 参 
见 13.3 节 )。 但 是 如 13.3 节 结束 时 所 讨论 的 ， 它 是 一 种 B3 
特别 弱 的 强度 前 弱 ， 因 此 这 里 给 出 的 传统 方法 应 当 比 
它 要 好 。 

另 一 方面 ，Cooper 和 Simpson([CooS95a] 和 
[Simp96]) 给 出 了 一 种 方法 ， 这 种 方法 对 强度 削弱 方法 
进行 了 扩充 ， 使 其 能 作用 于 过 程 的 SSA 形 式 。 由 此 得 
到 的 算法 和 上 面 的 方法 一 样 有 效 ， 甚 至 更 好 。 


14.1.3 活跃 变量 分 析 


为 了 执行 后 面 将 介绍 的 归纳 变量 转换 以 及 其 他 一 
些 优化 ， 如 图 着 色 寄存 器 分 配 和 死 代码 删除 ， 我 们 需 
要 进行 活跃 变量 分 析 。 一 个 变量 在 程序 的 某 个 特定 点 
是 活跃 的 (live)， 如 果 存 在 着 一 条 通 向 出 口 的 路 径 ， 
在 此 路 径 上 其 值 的 使 用 先 于 对 它 的 重新 定义 。 如 果 不 
存在 这 种 路 径 ， 则 称 该 变量 是 死去 的 (dead)。 

为 了 确定 流 图 中 每 一 点 上 哪些 变量 是 活跃 的 ， 我 
们 执行 向 后 数据 流 分 析 。 我 们 定义 USE(i) 是 基本 块 i 中 
其 使 用 先 于 其 定义 的 那些 变量 的 集合 ，DEF(i) 是 基本 
块 :中 其 定义 先 于 其 使 用 的 那些 变量 的 集合 。 一 个 变量 
在 基本 块 的 入 口 是 活 跃 的， 如 果 它 在 基本 块 的 出 口 | | 
是 活跃 的 且 不 属于 DEF()， 或 者 它 属于 USE(i)， 因 此 图 14-17 PHIL Lorre sy CERO IURE. 

LVin(i)=(LVout(i) - DEF()) U USE) 并 删除 基本 块 B3 中 的 无 用 赋值 后 的 结果 


一 个 变量 在 基本 块 的 出 口 是 活 跃 的 ， 如 果 它 在 其 每 一 
个 后 续 的 入 口 是 活 跃 的 。 因 此 
LVout(i)= |] Lvin() 
jeSucci) 
合适 的 初始 值 是 LVout(exit)=g . 
”作为 活跃 变量 数据 流 分 析 的 例子 ， 考 虑 图 14-18 中 
”的 流 图 。DEFO 和 USEO 的 值 如 下 : 

















tle 3*i 
j< tit+il 
k«1 

t2 < addr a 
t3 «€ 100 * i 
t4 «- t3 + j 
t5 «- t4 - 101 
t6 & 4 * tb 
t7 < t6 + t2 
t9 3*i 
tii < addr a 
t17 «- 100 * k 
t19 < ti7 +j 
t21 «- t19 - 101 
t23 © 400 * k 
t27 «- 4 * t21 
t23 © t23 + t27 
t25 < t23 + til 

















t8 « [t6] (4) 
t10 < t8 + t9 
t12 «- 100 * k 
t13 € t17 + j 
tl4 «- t19 - 101 
t15 «- 4 * t21 
t16 < t23 + til 
[t25] (4) € t10 
kek+i 

t17 «- ti7 + 100 
tt9 < tl9 + 100 
t21 © t21 + 100 
t23 «- t23 + 400 
| $25 < t25 + 400 


prints, 83 


DEF(entry = @ USE(entry = Ø 

DEF(B1) = {a,b} USE(B1) = $ 

DEF(B2) = {c} USE(B2) = {a,b} it 

DEF(B3) = 8 USE(B3) = {a,c} . [exit | 
DEF(exit) = =ø 图 14-18 计算 活跃 变量 的 流 图 例子 


ø USE(exit) 





445 
1 
446 
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LVinOfüLVoutOBS tin T : 

LVin(entry) = 6 LVout(entry) = 6 

LVin(B1) = LVout(B1) = {a,b} 

LVin(B2) = {a,b} LVout(B2) = {a,b,c} 

LVin(B3) = {a,c} LVout(B3) = 6 

LVin(exit) = LVout(exit) = 
所 以 ， 在 基本 块 B2 的 入 口 a 和 b 是 活跃 的 ， 在 基本 块 B3 的 入 口 a 和 c 是 活跃 的 。 
14.1.4 归纳 变量 删除 和 线性 函数 测试 蔡 换 

除了 对 归纳 变量 进行 强度 削弱 外 ， 我 们 常常 还 能 完全 删除 它们 。 删 除 它们 的 基本 判断 标准 
是 显然 的 一 一 这 种 归纳 变量 在 程序 中 没有 用 途 一 一 但 是 却 不 总 是 那么 容易 识别 。 产 生 这 种 没有 
用 途 的 归纳 变量 的 原因 如 下 : l 

1. 这 种 变量 从 一 开始 就 没有 参与 计算 。 

2. 由 于 其 他 转换 ， 如 强度 削弱 ， 导 致 这 种 变量 成 为 无 用 的 。 

3. 这 种 变量 是 在 一 次 强度 前 弱 过 程 中 创建 的 ， 然 后 因为 进行 了 另 一 次 强度 削弱 而 变 成 无 用 的 。 

4. 这 种 变量 只 用 在 循环 结束 测试 中 ， 并 且 可 以 被 那个 上 下 文中 另外 的 归纳 变量 所 替代 。 这 
种 情形 称 为 线性 函数 测试 替换 。 

作为 第 一 种 情形 的 例子 ， 考 虑 图 14-19a 中 的 变量 j]。j 在 这 个 循环 中 完全 没有 用 途 ， 假 定 它 
的 最 终 值 在 循环 之 后 不 需 使 用 ， 因 此 我 们 可 以 简单 地 删除 它 。 即 使 需要 使 用 j 的 最 终 值 ， 也 可 
在 循环 之 后 用 一 个 赋值 j]=12 来 替代 。 这 种 情形 可 由 [3-2 
死 代 码 删除 来 处 理 (参见 18.10 节 )。 a i 

作为 第 二 种 情形 的 例子 ， 考 虑 图 14-19b 中 的 变 j=j+1 
量 j]。 这 里 循环 虽然 实际 使 用 了 j 的 值 ， 但 由 于 j 是 i |enddo 
类 的 一 个 归纳 变量 ， 并 且 它 每 次 使 用 的 值 实际 上 是 dD 
i+1， 因 此 我 们 不 难 删除 它 。 图 14-19 Fortran 77 代 码 中 无 用 

第 三 种 情形 的 例子 可 通过 转换 图 14-12 中 的 代码 归纳 变量 的 例子 


而 得 到 。 考 虑 变量 t7， 在 进入 循环 之 前 它 被 初始 化 为 4， 然 后 在 循环 内 被 赋 给 t5 并 增加 4。 我 
们 删除 赋值 t5 =t7， 并 用 t7 替 代 t5 的 使 用 ， 由 此 得 到 了 图 14-20a 中 的 代码 。 注 意 ， 这 个 循环 
中 没有 使 用 t7 的 值 (除了 增加 它 之 外 )， 所 以 t7 — t7+4 以 及 循环 之 前 对 t7 的 初始 化 都 可 以 删 
除 ， 由 此 得 到 图 14-20b 所 示 的 代码 。 

如 果 所 编译 的 目标 机 体系 结构 有 基 寄 存 器 更 新 的 存 / 取 指 令 ， 则 我 们 偏向 于 选择 可 以 从 这 
种 指令 受益 的 归纳 变量 ， 即 用 来 寻 址 并 增加 一 个 适当 量 的 归纳 变量 。 

最 后 一 种 情形 ， 线 性 函数 测试 蔡 换 ， 可 以 用 图 14-20 中 的 变量 i 来 举例 说 明 一 一 i 在 循环 之 
前 被 置 初 值 ， 并 且 在 循环 内 作为 循环 结束 控制 变量 被 测试 和 增值 。 除 了 在 循环 之 后 可 能 需要 它 
的 最 终 值 外 ， 在 循环 中 它 没有 任何 其 他 用 途 。 通 过 确定 出 t8 在 循环 中 的 最 终 值 ， 即 addr a) 
+400， 并 将 此 值 赋 给 一 个 新 的 临时 变量 t9， 用 t2 ~ t8>t9 赫 代 原 来 的 终止 测试 ， 并 删除 所 有 
使 用 i 的 语句 ， 我 们 可 以 删除 变量 i ， 并 由 此 得 到 图 14-21 中 的 代码 。( 注 意 ,为 了 进一步 简化 代 
码 并 使 它 的 可 读 性 更 好 ， 我 们 还 用 t6 的 值 替 代 了 t6 的 一 个 使 用 ， 因 而 删除 了 t6。) 如 果 知 道 i 
在 循环 结束 时 是 活跃 的 ， 或 不 知道 它 是 否 活跃 ， 我 们 也 可 以 在 L2 处 插入 i 一 100。 

为 了 对 给 定 的 循环 执行 归纳 变量 删除 和 线性 函数 测试 替换 ， 我 们 按 如 下 方法 进行 处 理 。 


O 注意 ， 对 这 个 例子 也 可 做 循环 倒置 ， 但 我 们 选择 不 这 样 做 ， 以 便 每 次 只 处 理 一 个 问题 。 


th FH tt 


ti «- 202 
iei 
t7 < 4 

t3 < addr a 
t4< t3- 4 
t8 «€ t4+4 
: t2 «- i > 100 
if t2 goto L2 
ti «€ t1-2 
t6 «- t8 
*t6 < ti 
i*€i*1 
t8 < t8 + 4 
t7 «€ t7 +4 
goto L1 


a) 
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ti «- 202 
iei 


t3 < addr a 
t4 < t3. - 4 
t8 < t4 + 4 
: t2 < i > 100 
if t2 goto L2 


tl € t1-2 
t6 «- t8 
*t6 © t1 
i<it+i 
t8 <- t8 +4 


goto Li 


b) 





图 14-20 图 14-12 中 的 代码 转换 后 的 版 本 : a) 删除 归纳 变量 55 之 后 ，b) 也 删除 t7 之 后 


对 于 用 前 一 节 强 度 前 弱 算 法 插入 的 每 一 个 赋值 /一 六， 如 果 在 这 个 插入 的 语句 和 j 的 所 有 使 
用 之 间 没 有 对 女 的 定义 ， 则 用 的 使 用 殖 代 j 的 所 有 使 
用 ， 并 删除 已 插入 的 语句 j ~ 女 。 这 正 是 我 们 在 转换 
图 14-20b 中 的 代码 到 图 14-21 中 含 线性 函数 测试 款 换 
的 代码 时 所 做 的 事情 。 注 意 这 是 复写 传播 的 一 种 局 
部 形式 。 

令 i 是 只 在 计算 其 他 归纳 变量 中 和 关系 式 中 使 用 
的 基本 归纳 变量 ， 令 /是 具有 线性 方程 | = bti + c 的 i nee 
类 中 一 个 归纳 变量 。 我 们 用 goto L1 

tj ebt*v : 

tj ttc 

jij? 
替换 关系 运算 ; ? v， 其 中 ?代表 关系 运算 符 ，v 不 是 
一 个 归纳 变量 ， 并 删除 循环 中 所 有 对 i 的 赋值 。 如 果 i 
在 通 向 循环 出 口 的 某 条 路 径 上 是 活跃 的 ， 则 在 循环 的 每 一 个 这 种 出 口 处 放置 一 条 将 ;的 最 终 值 
送 给 ;的 赋值 语句 。 

这 一 处 理 过 程 中 有 一 个 容易 被 编译 器 的 编写 者 和 著作 者 忽视 ， 并 因此 导致 强度 前 弱 出 问题 
的 复杂 因素 (参见 [Al1C81]3.5 节 )。 为 了 在 替代 语句 中 保持 关系 “?”， 我 们 必须 知道 b 是 正 的 ， 
如 打 它 是 负 的 ， 则 需要 使 用 相反 的 关系 ， 为 此 需 在 替换 表达 式 中 将 它 表示 成 “!?”。 具 体 地 ， 
上 面 的 关系 表达 式 应 变 成 

ju 

— 如果 b 只 是 一 个 循环 不 变量 ， 而 不 是 一 个 已 知 的 常数 ， 我 们 就 可 能 不 知道 它 的 正 负 。 在 这 
种 情况 下 可 能 不 值得 做 线性 函数 测试 替换 ， 但 如 果 有 必要 做 ， 做 也 是 可 以 的 ， 但 以 增加 代码 体 
积 为 代价 。 我 们 只 需要 在 进入 循环 之 前 测试 这 个 循环 不 变量 的 符号 ， 并 分 支 到 两 个 已 优化 的 循 
环 之 一 ; 其 中 一 个 循环 假定 这 个 循环 不 变量 是 正 的 ， 另 一 个 假定 它 是 负 的 。 尽 管 这 样 做 似乎 没 
有 太 大 的 好 处 ， 但 如 果 在 并 行 机 或 向 量 机 上 它 能 导致 获得 更 大 的 并 行 执行 或 向 量 执行 的 话 ， 则 


ti «- 202 
t3 «- addr a 
t4 «€ t3.- 4 
t8 < t4 * 4 
t9 < t3 + 400 
: t2 © t8 > t9 


if t2 goto L2 
ti «€ ti -2 
*t8 «- t1 





图 14-21 图 14-20 中 的 代码 在 删除 
归纳 变量 (ifite) 和 对 变量 i 执 
- 行 线性 函数 测试 替换 后 的 结果 
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好 处 就 很 大 。 另 一 种 方法 是 ， 我 们 可 以 简单 地 将 循环 结束 测试 代码 分 解 为 对 符号 进行 测试 ， 然 
后 根据 结果 转移 到 这 个 循环 结束 测试 的 两 个 分 支 之 一 的 代码 。 

如 果 关 系 运算 涉及 到 两 个 归纳 变量 ， 例 如 让 ? 妈 ， 且 它们 都 只 在 计算 其 他 归纳 变量 和 关系 
式 中 使 用 ， 其 转换 就 更 复杂 。 如 果 存 在 着 归纳 变量 六 和 j22， 它 们 的 线性 方程 分 别 是 j1=b*il + c 
Fil j2 = b*i2 +c， 我 们 则 能 够 简单 地 用 j1 ?2 替换 让 ? 这 ， 这 里 再 次 假设 5 是 正 的 。 如 果 不 存在 这 
种 具有 相同 的 5; 和 c 值 的 归纳 变量 六 和 j2， 这 种 替换 一 般 就 不 值得 做 ， 因 为 它 可 能 会 为 了 替换 代 
价 较 小 的 运算 而 在 循环 中 引入 两 个 乘法 和 一 个 加 法 。 


procedure Remove. IVs. LFTR(bset ,nblocks,ninsts,Block,IVs,SRdone,Succ,Pred) 
bset: in set of integer 
nblocks: inout integer 
ninsts: inout array [1--nblocks] of integer 
Block: inout array [i::nblocks] of array [--] of MIRInst 
IVs: in set of IVrecord 
SRdone: in array [1--nblocks] of array [::] of boolean 
Succ, Pred: inout integer — set of integer 
begin 
opit, op2t: enum (con,ind,var) 
ivi, iv2: IVrecord 
i, j: integer 
tj: Var 
v: Const 
inst: MIRInst 
oper: Üperator 
for each ivi € IVs (SRdone[ivi.blk] [ivi.pos]) do 
for each iv2 e IVs (!SRdoneliv2.blk] [iv2.pos] 
& ivi.biv = iv2.biv & ivi.fctr = iv2.fctr 
& ivi.diff - iv2.diff) do 
|| if ivi and iv2 have matching equations and ivi 
|| has been strength-reduced and iv2 has not, 
|| replaces uses of iv2 by uses of ivl 
for each i € bset do 
for j := 1 to ninsts[i] do 
Replace. Uses (i, j,Block,ivi,iv2) 
od 





































: od 
od 
for each i € bset do 

for j := 1 to ninsts[i] do 
if Has Left(Block[il[jl.kind) & SRdone[i][j] then 
if Live on Exit(inst.left,bset,Block) then' | 
11 if result variable is live at some exit from the loop, 
|| compute its final value, assign it to result variable 
|| at loop exits 
v := Final Value(inst.left,bset,Block) 
Insert Exits(bset,Block,(kind:valasgn, 
left:inst.left,opd:<kind: const ,val:v>>) 








fi 
|| delete instruction Block[i][j] and renumber the tuples 
|| in IVs to reflect the deletion ` 

delete inst(i,j,nblocks,ninsts,Block,Succ,Pred) 

IVs -= {ivi} 

for each iv2 € IVs do 


图 14-22 实现 归纳 变量 删除 和 线性 函数 测试 替换 的 代码 
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if iv2.blk = i & iv2.pos > j then 
IVs := (IVs - {iv2}) 
u ((tiv:iv2.tiv,blk:i,pos:iv2.pos-1, . 
fctr:iv2.fctr,biv:iv2.biv,diff:iv2.diff>} 
fi 
od 
fi 
od 
od 
od 
for each i € bset do 
j := ninsts [il 
inst := Block[i] [j] 
if inst.kind # binif then 
goto Li 
fi 
|| perform linear-function test replacement 
Canonicalize (inst ,opit ,op2t) 
if opit = con then 
if op2t = con & Eval RelExpr(inst.opdi,inst.opr,inst.opd2) then 
|| if both operands are constants and the relation is true, 
|| replace by goto 
Block[i][j] := <kind:goto,1bl:inst.1b1l> 
elif op2t = ind then 
|| if one operand is a constant and the other is an induction 
|! variable, replace by a conditional branch based on a 
|| different induction variable, if possible 
if Jivi € IVs (inst.opd2.val = ivi.tiv & ivl.tiv = ivi.biv) then 
if Jiv2 e IVs (iv2.biv = ivi.biv - 
"k iv2.tiv * ivi.tiv) then 
tj := new tmp( ) 
insert, before(i,j,ninsts,Block,(kind:binasgn,left:tj, 
opr:mul,opdi: (kind: const ,val:iv2.fctr)>,opd2: inst .opdi)) 
insert before(i,j,ninsts,Block, 
(kind:binasgn,left:tj,opr:add, 
opdi:«kind:const,val:iv2.diff),opd2:(kind:var,val:tj?)) 
oper :- inst.opr 
|| if new induction variable runs in the opposite direction 
|| from the original one, invert the test 
if iv2.fctr « 0 then 
oper := Invert(oper) 
fi 
Block[i][j] := <kind:binif,opr:oper, 
` opdi:<kind:var,val:tj>, 
opd2: (kind: var ,val:iv2.tiv),1b1: inst .1b1> 















fi 
fi 
fi 
elif opit = ind then 
if op2t = ind then 
if Jivi,iv2 € IVs (ivi * iv2 & ivi.biv = inst.opdi.val 
& iv2.biv = inst.opd2.val & ivi.fctr = iv2.fctr 
& ivi.diff = iv2.diff) then 
|! if both operands are induction variables,... 
oper := inst.opr 


图 14-22 (£X) 
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if iv2.fctr « O then 
oper := Invert(oper) 
fi . 
Block[il[j] := <kind:binif,opr:oper, 
op1:<kind:var,val:ivi.tiv>, 
op2: (kind: var,val:iv2.tiv>,1bl:inst.1b1)> 
fi 
elif op2t = var & BIV(inst.opdi.val,IVs) 
& divi € IVs (ivi.biv = inst.opdíi.val 
& ivi.tiv * ivi.biv) then 
tj := new tmp( ) 
insert before(i,j,ninsts,Block, 
(kind:binasgn,left:tj,opr:mul, 
opdi:(kind:const,val:ivi.fctr),opd2:inst.opd25) 
insert before(i,j,ninsts,Block, 
<kind: binasgn,left:tj,opr:add, 
opdi: (kind: const, val:ivi.diff>,opd2:<kind:var,val:tj>>) 
oper := inst.opr 
if ivi.fctr < 0 then 
oper := Invert (oper) 
fi 
Block[il[j] := <kind:binif,opr:oper, 
opdi:(kind:var,val:ivi.tiv), 
opd2: (kind:var,val:tj?,lbl:inst.lbl5 





end || Remove. IVs.LFTR 


图 14-22 (£&) 


图 14-22 给 出 了 实现 上 面 处 理 过 程 的 CAN 代 码 ， 它 使 用 了 如 下 若干 函数 : 

1. Insert, before(i, j, ninsts; Block, inst) 将 指令 inst 直 接 插入 在 Block [i] 万 之 前 ， 
并 相应 地 调整 数据 结构 (参见 图 4-14)。 

2. Delete inst (i, j, nblocks, ninsts,Block,Succ, Pred) MBRBlock [i] 中 的 第 7/ 
条 指令 ， 并 相应 地 调整 数据 结构 (参见 图 4-15 )。 

3. Replace_Uses (i, j, Block, ivl, iv2) 在 Block [i] [j] B2 tiv# Riv . tiv 的 所 有 
使 用 。 

4. Has. left (kd) 返回 true, 如 果 种 类 为 kd 的 MIR 指 令 有 左 部 量 ; 否则 返回 false 《参见 
图 4-8)。 

5. Canonicalize (inst, tl, {2) ， 对 于 给 定 的 一 条 含 二 元 关系 表达 式 的 MIR 指 令 inst， 重 排 
其 操作 数 ， 使 得 (a) 如 果 有 一 个 操作 数 是 常数 ， 使 它 成 为 第 一 个 操作 数 ， 并 且 (b) 如 果 没 有 常数 
- 操作 数 ， 但 有 一 个 是 归纳 变量 ， 使 它 成 为 第 一 个 操作 数 ; 如 果 它 重 排 了 操作 数 的 顺序 ， 则 相应 
调整 运算 符 ; 并 且 根 据 规范 化 后 的 第 一 个 操作 数 或 第 二 个 操作 数 是 常数 、 归纳 变量 还 是 非 归 纳 
变量 ， 分 别 设置 引 和 了 妃 为 con、inaq 或 var。 

6. Eval. RelExpr (opdl, opr, opd2) 计算 关系 表达 式 opdl opr opd2， 并 返回 该 表达 式 的 值 
(true 或 false)。 

7. BIV (v, IVs) 返回 true， 如 果 v 作 为 基本 归纳 变量 出 现在 归纳 变量 记录 集合 IVs 中 ;否则 
返回 Ealse。 

8. Live, on, Exit (v, bset, Block) 返 回 true， 如 果 变 量 v 在 由 bset 给 出 的 基本 块 组 成 的 
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循环 的 某 个 出 口 是 活 跃 的 ; 否则 返回 false (这 种 性 质 由 执行 前 一 节 介 绍 的 活跃 变量 数据 流 分 
析 来 计算 )。 

9. Final_Value (v, bset, Block) 返 回 变量 v 从 bset 给 出 的 基本 块 所 组 成 的 循环 出 口 时 的 
最 终 值 。 

10. Insert Exits(bset, Block, inst) 将 MIR 指 令 inst 插 入 到 紧 接 在 bset 给 出 的 循环 的 每 
一 个 出 口 之 后 。 . 

ll. Invert (opr) 返回 MIR 关 系 运算 符 opr 的 逆 运 算 符 ， 例 如， 对 于 “>”， 它 返回 “<=”。 

12. New, tmp () 返 回 一 个 新 的 临时 变量 名 。 

注意 ， 我 们 能 够 用 一 种 更 有 效 的 方法 来 实现 在 Remove_IVs_LFTR() 中 那个 逐一 查看 指 
令 的 内 层 for 循 环 ， 这 种 方法 保存 一 张 描 述 要 被 删除 的 指令 表 ， 并 只 用 单 层 for 循 环 。 


14.2 不 必要 边界 检查 的 消除 


边界 检查 (bounds checking) 或 范围 检查 (range checking) 是 指 判定 一 个 变量 在 程序 中 使 
用 的 所 有 值 是 否 处 在 其 指定 的 范围 之 内 。 一 个 典型 的 例子 是 ， 对 于 其 声明 为 

var b: array[(1..100, 1..10] of integer 
的 Pascal 数 组 元 素 b[i,j] ， 检 查 i 的 值 是 否 确实 在 1 到 100 之 间 ，j 是 否 确实 在 1 到 10 之 间 。 另 一 
个 例子 是 ， 检 查 一 个 声明 为 Ada 子 类 型 的 变量 的 使 用 是 否 在 所 指定 的 范围 之 内 ， 例 如 ， 是 否 处 
在 这 种 子 类 型 之 内 : 

subtype TEMPERATURE is INTEGER range 32..212; 

i: TEMPERATURE; 

我 们 在 上 面 这 两 个 例子 中 提 及 Pascal 和 Ada 是 因为 它们 的 语言 定义 特别 指明 要 进行 这 种 检 
dr (或 等 价 地 ， 这 种 语言 的 实现 要 保证 以 某 种 方式 来 满足 规定 的 限制 )。 不 过 ， 无 论 程序 用 什 
么 语言 编写 ， 这 种 检查 都 是 有 好 处 的 ， 因 为 越界 是 最 常见 的 程序 设计 错误 。“ 差 1 ”错误 就 是 一 
个 典型 的 例子 。 在 这 种 错误 中 ， 循 环 索引 或 其 他 计数 器 超越 了 末尾 或 其 他 范围 一 个 位 置 一 这 
种 错误 通常 导致 访问 或 存储 了 不 属于 被 处 理 数 据 结构 一 部 分 的 数据 。 

另 一 方面 ， 边 界 检查 的 代价 可 能 非常 大 ， 例 如 ， 像 图 14-23 演 示 的 那样 ， 其 中 每 一 个 数组 
访问 的 每 一 维 都 必须 伴随 两 个 判别 访问 合法 性 的 条 件 自 陷 ， 其 中 我 们 假设 陷阱 6 用 于 数组 维 
界 越界 。 这 里 ， 数 组 访问 有 8 条 MIR 代 码 ,， 检查 用 了 额外 的 4 条 。 


if 1 > i trap 6 





当 数 组 访问 经 过 了 优化 时 ， 这 种 检查 开销 甚至 会 更 大 一 一 因为 if i » 100 trap 6 
取 二 维 数组 的 下 一 个 元 素 可 能 只 需要 一 条 或 两 条 加 指令 和 一 条 ifj» 10 trap 6 
取 指令 ， 而 维 界 检查 仍然 需要 用 于 条 件 自 陷 的 4 条 指令 。 许 多 

实现 ， 尤 其 是 Pascal, “解决 ”这 一 问题 的 方法 是 给 用 户 提供 一 t2 © addr b 

个 允许 进行 检查 的 编译 选项 ， 这 种 选项 的 目的 是 允许 用 户 在 开 tt 100 
发 和 调试 程序 时 进行 这 种 检查 ， 一 旦 所 有 的 问题 都 被 发 现 并 已 t3 e t3 +i 

更 正之 后 ， 便 关 掉 此 开关 运行 正式 的 生产 版 本 ， 这 样 ， 开 销 只 supe 

发 生 在 程序 仍然 有 问题 时 ， 而 不 会 发 生 在 〈 用 户 认为 ) 它 已 经 t3 < t2 + t3 
没有 错误 之 后 。 t4 e na 


但 是 ,事实 上 软件 工程 关于 程序 中 的 问题 或 缺陷 的 所 有 研 。 图 14-23 Pascal 中 访问 pfi, 习 的 
究 都 指出 ， 发 布 给 顾客 的 交付 版 本 很 可 能 还 有 隐藏 的 故障 ， 其 边界 检查 MIR 代 码 例子 


日 if.. .trap 结 构 可 以 用 条 件 分 支 或 条 件 自 陷 来 实现 ， 取 决 于 体系 结构 、 源 语言 以 及 语言 的 实现 。 
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中 很 多 故障 是 在 发 布 前 的 测试 期 间 未 曾 观察 到 的 。 因此 这 种 边界 检查 的 观点 有 一 种 严重 的 误解 。 
应 当 说 ， 边 界 检查 对 于 程序 的 交付 版 本 和 开发 版 本 一 样 重要 。 真 正 需要 做 的 不 是 提供 一 种 关闭 
边界 检查 开关 的 手段 ， 而 是 对 它 进 行 优 化 、 使 之 几乎 不 做 多 少 事情 ， 并 且 只 有 最 小 的 开销 。 例 
如 ， 在 图 14-23 中 ， 如 果 我 们 取 b [1, 3 的 操作 包含 在 一 个 循环 内 ， 这 个 循环 规定 了 下 标 可 取 值 
的 边界 ， 并 限定 了 它们 的 值 是 合法 值 ， 则 数组 越界 检查 代码 就 是 完全 不 需要 的 。 作 为 第 二 个 例 
子 ， 如 果 将 这 个 例子 中 外 层 循环 的 上 界 改 成 变量 n， 而 不 是 常量 50， 我 们 则 只 需要 在 进入 外 层 
循环 时 检查 一 次 n < 100 是 否 满足 ， 如 果 不 满足 则 转向 陷阱 9。 

这 种 优化 比较 容易 ， 对 于 某 些 语言 的 多 数 程 序 而 言 ， 它 几乎 不 值 一 提 。 事 实 上 我 们 已 经 有 
很 多 方法 可 以 满足 它 的 需要 ， 如 ， 不 变 代 码 外 提 ， 公 共 子 表达 式 删除 和 归纳 变量 转换 。 我 们 剩 
下 需要 的 是 用 什么 样 的 途径 来 表示 满足 边界 检查 的 限制 。 为 了 表示 边界 检查 限制 ， 我 们 引入 范 
围 表达 式 。 范 围 表达 式 (range expression) 是 作用 于 变量 值 的 不 等 式 ， 它 的 形式 为 : 


lo ? var ? hi 


其 中 var 是 一 个 变量 名 ，lo 和 hi 是 表示 范围 最 大 和 最 小 值 的 常数 ，? 是 关系 运算 符 。 如 果 这 个 变 
量 的 值 只 在 一 端 有 限制 ， 则 用 一 “或 “表示 另 一 端的 边界 。 

例如 ， 对 于 图 14-24 中 的 代码 ， 为 了 使 语句 s : =s +b[i,j] 不 需要 运行 时 的 检查 ， 我 们 必须 
满足 的 两 个 范围 表达 式 是 1 < i < 100 和 1 < j < 10， 这 是 数组 b 的 声明 所 要 求 的 。 为 了 判断 这 个 
语句 是 否 满足 这 两 个 范围 表达 式 ， 我 们 只 需要 能 够 从 第 一 个 for 语 句 推断 出 在 该 语句 构成 的 循 
环 内 1 < i<100 成 立 ， 并 且 从 第 二 个 for 语 名 推断 出 在 该 语句 构成 的 循环 内 1 < j < 10 成 立 。 
这 在 Pascal 中 是 微不足道 的 ， 因 为 这 两 个 for 语 名 分 别 确立 了 这 两 个 不 等 式 是 合法 的 ， 并 且 
Pascal 语 言 的 语义 要 求 除 了 for 语 句 本 身 外 ，for 循 环 内 不 能 修改 循环 迭代 变量 。 对 于 其 他 语 
言 的 判别 就 没有 这 么 容易 -一 -例如 C 语 言 对 可 出 现在 for 循 环 结构 内 的 表达 式 没 有 限制 ， 它 其 
至 没有 和 迭代 变量 的 概念 。 Dr at 00 1 o or Teo 

var b: arrayli.. ,1..10] of integer; 

最 简单 并 且 也 是 迄今 最 常见 的 可 优化 边界 检查 i, j, s: integer; 
代码 是 处 在 循环 内 的 边界 检查 ， 如 前 面 图 14-24 中 fon ie 1 to 50 do 
例子 的 情况 。 为 了 表述 更 具体 ， 我 们 对 循环 做 出 如 for j = 1 to 10 do 
下 假设 : S :7 s + b[i,j] 

1. 循环 具有 选 代 变 量 ;， 且 初 值 为 mxit， 终 值 为 j， 图 14-24 访问 bli，j] 无 需 边 界 

2. 每 迭代 一 次 i 增 1， 并 且 ， 检查 的 Pascal 例 子 

3. 只 有 循环 控制 代码 修改 i。 

我 们 进一步 假设 要 满足 的 范围 表达 式 是 lo < v< hi. 

最 容易 处 理 的 情形 是 v 是 一 个 循环 不 变量 。 在 这 种 情况 下 ， 我 们 只 需要 将 检查 1o < v < hi 的 
代码 从 循环 内 移 到 循环 的 前 置 块 中 。 当 然 ， 如 果 能 在 编译 时 计算 它 ， 我 们 就 在 编译 时 计算 它 。 

下 一 种 情形 是 需 满足 的 范围 表达 式 是 lo < i< hi， 其 中 i 是 循环 控制 变量 。 在 这 种 情况 下 ， 只 
要 lo < init 且 fin < hi， 此 范围 表达 式 就 是 满足 的 。 我 们 插入 检查 这 两 个 不 等 式 中 第 一 个 不 等 式 的 
代码 到 循环 的 前 置 块 。 我 们 也 在 前 置 块 中 插入 计算 和 =min(fin，hi) 的 代码 ， 并 用 i 与 册 相 比较 的 
循环 结束 测试 替换 i 与 fin 相 比较 的 循环 结束 测试 。 在 循环 正常 出 口 的 后 面 ， 我 们 插入 有 关 代码 





O 注意 , 我 们 假设 陷阱 终止 程序 的 执行 , 或 者 至 少 它 不 能 回 到 自 陷 发 生 的 地 方 重新 恢复 执行 。 这 是 基本 的 要 求 ， 
因为 我 们 将 那些 不 能 完全 删除 的 范围 检查 代码 ( 尽 可 能 ) 外 提 到 包含 它们 的 循环 之 外 ， 因 此 ， 这 种 自 陷 的 发 
生 点 与 原来 程序 执行 时 的 自 陷 发 生 点 会 有 所 不 同 ， 尽 管 我 们 保证 当 且 仅 当 在 原来 未 修改 的 程序 中 会 发 生 自 陷 
时 ， 这 个 自 陷 才 会 发 生 。 
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检查 i 的 终 值 是 否 到 达 了 它 不 经 过 转换 原本 应 到 达 的 值 ， 即 插入 i >fin 的 检查 。 如 果 这 些 检查 中 
有 任何 一 个 失败 ， 则 发 生 自 陷 。 当 然 ， 如果 这 些 检查 能 够 在 编译 时 进行 ， 它 们 就 在 编译 时 完成 。 
图 14-25 给 出 了 一 个 这 种 转换 之 前 和 之 后 的 例子 。 


if lo > init trap 6 
ti < fin min hi 
i «- init i € init 
Li: . .. 

if i « lo trap 6 

if i > hi trap 6 

use of i that must 

satisfy lo < i s hi 


use of i that must 
satisfy lo s i s hi 


iei+i 
if i <= fin goto Li 


i i+1í1 
if i <= t1 goto Li 
if i <= fin trap 6 





a) b) 
图 14-25 边界 检查 转换 : a) 原来 的 循环 ，b) 转换 后 的 代码 


我 们 考虑 的 最 后 一 种 情形 是 这 样 的 一 个 归纳 变量 六 它 属于 基本 归纳 变量 ;类 ， 并 有 线性 方 
Fj =b*i + c (参见 14.1 节 )， 且 必须 满足 范围 表达 式 lo <j< hi。 在 这 种 情况 下 ， 我 们 有 j = b*i + 
c， 因 此 为 了 使 /满足 其 范围 表达 式 ，; 必 须 满足 lo -c) / b<i< (hi-c)/b。 适 合 于 这 种 情况 的 转 
换 很 容易 从 前 述 情形 推广 得 到 。 

上 面 关于 循环 的 第 二 和 第 三 种 假设 , 即 在 每 一 个 迭代 中 ;增加 1, 且 只 有 循环 控制 代码 修改 i， 
都 可 以 放宽 以 允许 递减 的 循环 索引 ， 增 加 或 减少 一 个 非 1 的 值 ， 以 及 在 循环 内 对 ;的 简单 修改 ， 
我 们 将 这 些 留 给 读者 考虑 。 

也 可 以 通过 数据 流 分 析 在 过 程 内 传播 范围 表达 式 来 确定 它们 在 什么 地 方 是 成 立 的 ， 以 及 在 
什么 地 方 需要 做 检查 。 但 是 ， 这 样 做 的 代价 可 能 很 大 ， 因 为 所 使 用 的 格 包 含 所 有 1o，hi€ ZU 
(7 9,9 } 的 范围 表达 式 lo <v< hi， 且 当 且 仅 当 1o1< 1o02 晶 hil > hiz) REMF 

(lol & v < hil) E (lo2 &v& hi2) 


一 一 这 是 一 个 既 无 穷 宽 又 无 穷 高 的 格 。 至 少 ， 如 果 我 们 从 一 个 具有 有 穷 jo 值 和 有 穷 声 值 的 范围 
表达 式 lo «v« hi 开始 ， 它 就 只 有 从 那里 开始 的 有 穷 的 (但 无 界 ) 上 升 链 。 


14.3 小 结 


本 章 我 们 讨论 的 是 专门 针对 循环 的 优化 ， 或 者 当 作 用 于 循环 时 具有 最 好 效果 的 一 些 优化 。 
这 些 优化 可 在 中 级 中 间 代 码 、 也 可 在 低级 中 间 代 码 上 进行 ， 它 们 直接 作用 于 Fortran、Ada 和 
Pascal 的 规则 的 源 语言 循环 结构 ， 对 于 C 语 言 之 类 的 循环 (或 用 任意 语言 写 的 由 if 和 goto 形 成 
的 循环 )， 为 了 安全 施行 这 些 优化 ， 需 要 我 们 定义 其 行为 与 规则 循环 类 似 的 循环 子 集 。 

我 们 也 论 及 了 两 类 优化 ， 即 归纳 变量 优化 和 不 必要 的 边界 检查 删除 。 图 14-26 中 的 黑体 字 
显示 了 本 章 所 讨论 的 优化 在 整个 优化 处 理 中 的 位 置 。 

归纳 变量 优化 需要 我 们 首先 标识 出 循环 中 的 归纳 变量 ， 然 后 对 它们 执行 强度 前 弱 ， 最 后 执 
行 线性 函数 测试 替换 和 删除 元 余 的 归纳 变量 。 对 于 人 嵌 套 循环 ， 我 们 从 最 内 层 开 始 执行 这 一 系列 
优化 并 逐 层 向 外 进行 处 理 。 
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数组 引用 的 标量 替换 
数据 高 速 缓 在 优化 


过 程 集成 
尾 调用 优化 ， 包 括 尾 递归 删除 
译 合 量 的 标量 替代 
稀有 条 件 常 数 传播 
过 程 间 常 数 传播 
过 程 特殊 化 和 克隆 
稀有 条 件 常数 传播 



















常数 代数 化 简 ， 
we | 包括 重 结合 


-~----------------: 


BB UA BR 


1 
1 
1 
1 
1 
1 
1 
1 
1 
i 

Y 


















全 局 值 编 号 
局 部 和 全 局 复写 传播 
种 有 条 什 党 数 传播 


C1 






局 部 和 全 局 公共 子 表达 式 删 除 
循环 不 变 代码 外 提 





死 代 码 删除 
代码 提升 

归纳 变量 强度 削弱 
线性 函数 测试 蔡 代 


C4 





尾 融合 

分 支 优化 和 条 件 传送 

死 代 码 删除 

软 流水 ， 附 带 循环 展开 、 变 量 扩张 、 
寄存 器 重 命名 和 层次 归 约 

基本 块 和 分 支 调度 1 

图 着 色 寄存 器 分 配 

基本 块 和 分 支 调 度 2 

过 程 内 指令 高 速 缓 存 优化 

指令 预 取 

数据 预 取 

分 支 预测 


过 程 间 寄 存 器 分 配 
全 局 引用 聚合 
过 程 间 指令 高 速 缓 存 优化 


图 14-26 循环 优化 (黑体 字 标 明 ) 在 激进 优化 编译 器 中 的 位 置 
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删除 不 必要 的 边界 检查 是 一 种 既 作 用 于 循环 内 也 作用 于 循环 外 的 优化 ， 但 在 循环 内 具有 最 
大 效果 ， 因 为 循环 内 的 边界 检查 是 每 一 个 氨 代 都 要 执行 的 ， 除 非 它们 被 优化 删除 掉 了 或 者 至 少 
被 简化 了 。 


14.4 进一步 阅读 


将 有 限 差 分 应 用 于 计算 机 程序 的 基础 性 工作 ， 如 [Gold72] 中 介绍 的 ， 应 归功 于 Babbage。 
Allen 和 Cocke 关 于 对 非 加 和 乘 运算 应 用 强度 削弱 的 论文 可 以 在 [AllC81] 中 找到 。Paige 和 
Schwartz [PaiS77] 讨论 了 有 限 差分 的 一 种 推广 ， 称 为 形式 差分 ， 以 及 它 在 非常 高 级 的 语言 
SETL 中 的 应 用 。Chow [Chow83] 和 Knoop、Rithing 以 及 Steffen [KnoR93] 扩充 了 部 分 宛 余 
删除 使 之 包含 了 一 种 较 弱 形式 的 强度 削弱 。 

Cooper 和 Simpson 的 基于 SSA 的 强度 削弱 方法 的 介绍 见 [CooS95a] 和 [Simp96] 。 

可 以 找到 更 为 现代 的 边界 检查 优化 方法 ， 例如 在 Gupta [Gupt93] 、Kotte 和 Wolfe 

[KoIW95] 中 ,后 者 利用 部 分 宛 余 删除 来 确定 最 有 效 的 边界 检查 放置 点 。 


14.5 练习 


14.1 如 14.1 节 末尾 指出 的 ， 那 种 其 中 一 个 操作 数 是 可 缩放 的 或 可 自动 修改 的 存储 器 访问 
指令 ， 或 那 种 执行 一 个 算术 运算 和 测试 ， 同 
时 根据 测试 结果 进行 分 支 的 指令 ， 可 能 有 助 
于 强度 削弱、 归纳 变量 删除 和 线性 函数 测试 
替换 (参见 图 14-27 的 例子 )。(a) 你 如 何 判别 
应 使 用 这 些 指令 中 的 哪 种 指令 ? (b) 你 应 当 在 
优化 处 理 和 代码 生成 过 程 的 什么 点 上 做 出 这 





i«€1 
Li: rie 4* i 
r2 < (addr a) + ri 
r3 «€ [r2](4) 
r3 «r3 + 2 
[r2] (4) € r3 
i i+1 










种 判断 ? if i s 20 goto L1 
ADV 142 将 归纳 变量 识别 形式 化 为 数据 流 分 析 ， 并 将 ”图 14-27 对 按 比 例 伸缩 寻 址 、 自 动 修改 
它 应 用 于 图 14-9 的 例子 。 寻 址 和 运算 一 测试 一 分 支 指令 都 可 能 
14.3 如 代码 所 写 的 那样 ， 图 14-10 中 的 ICAN 代 码 有 用 的 一 个 MIR 循 环 的 例子 


总 是 生成 新 的 临时 变量 作为 ap ， 并 在 循环 
前 置 块 中 给 它 赋 初 值 。(a) 修 改 这 段 代 码 使 它 在 不 需要 时 不 这 样 做 。 给 这 个 临时 变 
量 tj 赋 初 值 的 指令 会 有 何 变化 ?(b) 注 意 也 存在 如 图 14-9 中 的 归纳 变量 t14 那 样 的 
一 些 情况 ， 其 中 ， 因 子 (fctr) 或 差 (diff) 不 是 简单 的 常数 或 可 以 用 作 强 度 前 弱 
的 变量 。 修改 这 段 代码 识别 这 种 情形 并 适当 地 处 理 它们 。 

144 写 出 一 个 删除 不 必要 边界 检查 的 ICAN 例 程 。 

14.5 推广 14.2 节 的 边界 检查 转换 ， 使 它 能 够 如 那 一 节 末 尾 讨论 的 : (a) 检 查 归纳 变量 ， 
(b) 适 应 更 一 般 的 修改 循环 控制 变量 的 情况 。 在 练习 14.4 中 编写 的 例 程 中 增加 反映 
这 种 改进 的 代码 。 

14.6 扩充 图 14-22 算 法 中 线性 函数 测试 替换 部 分 ， 以 处 理 非 编 译 时 已 知 的 循环 常量 。 

14.7 通过 用 图 14-17 中 的 基本 块 B3、 B4 和 B5 替 换 图 14-19 中 的 基本 块 B3 、B4 和 B5 来 继 
续 图 14-19 的 例子 。 然 后 ， (a) 对 内 层 循环 做 归纳 变量 删除 和 线性 函数 测试 替换 
(b) 对 外 层 循 环 做 完整 的 归纳 变量 优化 。 

RSCH 14.8 阅读 [Gupt93] 或 [KoIW95] , 并 写 出 实现 其 边界 检查 方法 的 ICAN 代 码 。 





第 15 章 过 程 优化 


本 章 我 们 讨论 作用 于 整个 过 程 的 三 对 优化 方法 ， 它 们 是 尾 递归 删除 和 比较 通用 的 尾 调用 优 
化 、 过 程 集成 和 内 人 嵌 扩 展 ， 以 及 叶 例 程 优化 和 收缩 包装 ， 其 中 除了 一 种 优化 方法 之 外 其 余 都 不 
需要 进行 数据 流 分 析 。 第 一 对 优化 方法 将 调用 转变 成 转移 。 第 二 对 优化 方法 是 同一 种 优化 的 两 
个 版 本 ， 第 一 个 应 用 于 中 级 或 高 级 中 间 代 码 ， 第 二 个 应 用 于 低级 代码 。 最 后 一 对 优化 方法 用 于 
优化 语言 实现 中 使 用 的 调用 约定 。 


15.1 尾 调 用 优化 和 尾 递归 删除 


尾 调用 优化 和 它 的 特殊 情形 ， 即 尾 递归 删除 是 作用 于 调用 的 一 种 转换 。 它 们 常常 能 显著 地 
减少 或 消除 过 程 调用 的 开销 ， 并 且 经 过 中 递归 删除 后 ， 可 以 执行 原本 不 能 执行 的 循环 优化 。 

过 程 f() 对 过 程 g O 的 调用 是 尾 调 用 (tail call), WRES () 返回 后 ，f () 惟一 做 的 事情 是 
返回 自己 。 如 果 E() 和 g () 是 同一 个 过 程 则 这 个 调用 是 尾 递归 的 (tail recusive)。 例 如 图 15-1 的 
C 代 码 中 ， 对 insert_node () 的 调用 是 尾 递归 的 ， 而 对 make_node () 的 调用 是 〈 非 递归 的 ) 
尾 调 用 。 

Xfinsert, node () 施加 尾 递 归 删 除 的 效果 如 图 15-2 所 示 ， 它 将 递归 变 成 了 循环 。 


void make node(p,n) 
struct node *p; 
int n; 
struct node *q; 
q 7 malloc(sizeof(struct node)); 
q-?next = nil; void insert, node(n,1) 
q->value = n; int n; 
p->next = q; struct node *1; 
} (1oop: 
if (n > 1->value) 
void insert, node(n,1) if (1-»next == nil) make node(1,n); 
int n; else 
struct node *1; { 1 := 1->next; 
{ if (n > 1->value) goto loop; 
if (l->next == nil) make_node(1,n); } 
else insert_node(n,1->next) ; 





图 15-1 C 的 尾 调 用 和 尾 递归 例子 图 15-2 用 源 代码 展示 的 对 insert_noae () 
施加 尾 递 归 删 除 的 效果 


我 们 不 能 用 源 语言 来 示范 尾 调 用 优化 的 效果 ， 因 为 从 一 个 过 程 体 转移 到 另 一 个 过 程 体 不 符 
合 C 的 语义 (实际 上 也 不 符合 其 他 任何 高 级 语言 的 语义 )， 但 可 以 用 类 似 的 方法 来 思考 它 ， 用 
make. node ( ) 的 参数 替代 栈 中 的 (或 适当 寄存 器 中 的 ) insert node () 的 参数 ， 并 用 一 条 
转移 到 make_node () 函数 体 的 开始 处 的 分 支 指令 替代 调用 make_node O 的 指令 。 

但 即使 这 样 仍然 违背 了 MIR 的 语义 ， 因 为 参数 名 是 局 部 于 过 程 的 。 不 过 我 们 可 以 用 LIR 来 
说 明 尾 调用 优化 的 效果 。 与 图 15-1 对 应 的 LIR 代 码 在 图 15-3a 中 给 出 ， 对 这 个 例子 我 们 随意 地 选 
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择 将 参数 传递 到 寄存 器 rl 和 r2 中 。 图 15-3b 给 出 了 对 make_node 执 行 尾 调用 优化 的 结果 。 但 这 
个 版 本 中 仍然 隐藏 了 一 个 微妙 的 问题 ， 因 为 我 们 在 其 中 没有 明显 展示 存储 栈 的 情况 。 事 实 上 ， 
调用 者 和 被 调用 者 可 能 有 大 小 各 不 相同 的 栈 帧 。 如 果 调 用 者 的 栈 帧 大 于 被 调用 者 的 栈 帧 ， 我 们 
仅 需 要 安排 被 调用 过 程 的 出 口 处 理 (epilogue) (参见 5.6 节 ) 释放 调用 者 的 栈 帧 。 释 放 调用 者 栈 
帧 最 容易 的 方法 是 使 用 一 个 帧 指针 ( 即 调 用 者 的 栈 指针 ， 或 在 这 种 情况 下 ， 即 调用 者 的 调用 者 的 
栈 指 针 )， 然 后 在 出 口 时 通过 将 帧 指针 赋 给 栈 指针 而 恢复 调用 者 的 栈 指针 。 例 如 ，Sun 的 SPARC 
编译 器 就 是 这 样 做 的 (参见 21.1 节 )。 如 果 调 用 者 的 栈 帧 小 于 被 调用 者 的 ， 我 们 需要 在 进入 被 调 
用 过 程 之 前 或 在 被 调用 过 程 的 八 口 处 为 被 调用 过 程 分 配 剩余 部 分 的 栈 帧 ， 或 者 需要 在 转移 到 被 
调用 者 之 前 先 释 放 调 用 者 的 栈 帧 ， 然 后 在 进入 被 调用 者 时 做 标准 的 和 人口 处 理 (prologue)。 


make, node: 


r4 < ri 

ri « 8 

r3 < call malloc 
r3 *. next © nil 
r3 *. value © r2 
r4 *. next «- r3 
return 


insert, node: 


r4 < r2 *. value 
rb < r1 > r4 

if !r5 goto L1 

r6 «- r2 *. next 
r7 © r6 = nil 

if !r7 goto L2 

r2 < ri 

ri <- r4 

call make,node 
return 


: r2 < r2 *. next 


call insert node 
return 


: return 





a) 


make. node: 


rA < ri 

rie 8 

r3 «- call malloc 
r3 *. next €- nil 
r3 *. value < r2 
r4 *. next < r3 
return 


insert. node: 


r4 «- r2 *. value 
r5 < ri» r4 

if !r5 goto Li 

r6 «- r2 *. next 
r7 «- r6 = nil 

if !r7 goto L2 

r2 < ri 

rie < r4 

goto make node 


: r2 «- r2 *. next 
goto insert node 





: return 


b) 


图 15.3 a) 与 图 15-1 对 应 的 LIR 代 码 ，b) 对 make_node O 中 的 两 个 调用 执行 尾 调用 优化 后 的 结果 

判别 一 个 调用 是 否 是 尾 调用 较 容易 ， 它 只 需要 检查 执行 这 个 调用 的 例 程 在 该 调用 返回 之 后 
惟一 做 的 事情 是 返回 自己 。 这 个 例 程 本 身 要 返回 的 值 可 能 就 是 由 被 调用 者 返回 的 值 。 删 除 尾 弟 
归 调用 的 过 程 是 直观 的 ， 如 我 们 前 面 的 例子 所 示 ， 它 甚至 可 以 在 源 代 码 一 级 进行 。 BR 
归 调 用 所 要 做 的 只 是 将 适当 的 值 赋 给 参数 ， 接 着 转移 到 过 程 体 的 开始 ， 并 删除 以 前 跟 在 该 递归 
调用 之 后 的 return 语 句 即 可 。 图 15-4 给 出 了 对 MIR 过 程 执行 尾 递归 删除 的 ICAN 代 码 。 

实现 一 般 的 尾 调用 优化 所 做 的 工作 要 多 一 些 。 首 先 我 们 必须 保证 这 两 个 过 程 体 在 编译 时 是 
同时 可 见 的 ， 或 者 ， 至 少 在 编译 时 调用 者 有 足够 多 的 、 使 得 转换 有 可 能 发 生 的 关于 被 调用 者 的 
信息 。 我 们 可 以 因为 调用 过 程 和 被 调用 过 程 处 在 同一 个 编译 单位 ， 或 因为 编译 系统 有 保存 过 程 
的 中 间 代码 表示 的 选项 (如 MIPS 编 译 器 所 做 的 那样 ) ， 而 同时 见 到 这 两 个 过 程 体 。 不 过 我 们 真 
正 需要 知道 的 只 是 被 调用 者 的 如 下 三 种 信息 : 

1. 它 希 望 参数 放 在 何 处 ; 

2. 为 了 开始 执行 它 的 过 程 体 ， 控 制 应 转移 到 何 处 ; 

3. 它 的 栈 帧 的 大 小 。 
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procedure Tail Recur Elim(ProcName,nblocks,ninsts,Block,en,Succ) 
ProcName: in Procedure 
nblocks, en: in integer 
ninsts: inout array [1--nblocks] of integer 
Block: inout array [1--nblocks] of array [-:] of MIRInst 
Succ: in integer —> set of integer 
begin 
i, j, b := eSucc(en): integer 
1j: Label 
inst: MIRInst 
|| make sure there's a label at the beginning of the procedure’s body 
if Block(b][i].kind = label then 
lj := Block[b] [1] .1b1 
else 
1j := new_label( ) 
insert before(b,1,ninsts,Block,(kind:label,1b1:1j?) 
fi 
for i := 1 to nblocks do 
inst := Block[i)[ninsts[i]-1] 
if (inst.kind = callasgn & inst.proc = ProcName 
& Block[il[ninsts[i]].kind = retval) 
V (inst.kind = call & inst.proc = ProcName 
& Block[i][ninsts[i]].kind = return) then 
|] turn tail call into parameter assignments 
|| and branch to label of first block 
for j := 1 to linst.args| do 
Block[i][ninsts[i]*j-2] := <kind:valasgn, 
left :Block(b] [j] .left, 
opd: Block [i] [ninsts[i]-1] .argsijei> 























od 
ninsts[i] += linst.args| + 1 
Block[i][ninsts[i]] := <kind:goto,1b1:1j> 
fi 
od 
end || Tail_Recur_Elim 


图 15-4 执行 尾 递归 删除 的 ICAN 代 码 


这 些 信息 可 以 用 一 种 只 保存 过 程 的 接口 表示 、 而 不 是 其 过 程 体 的 方式 来 保存 。 如 果 只 保存 
接口 ， 当 调用 者 的 栈 帧 大 于 被 调用 者 的 时 ， 我 们 就 可 能 不 能 做 这 种 转换 一 一 这 取决 于 栈 帧 的 分 
配 和 释放 所 使 用 的 约定 【参见 5.4 节 )。 

为 了 执行 这 种 优化 ， 我 们 用 如 下 三 件 事 来 替代 这 个 调用 : 

1. 计算 这 个 尾 调用 的 实 参 ， 并 将 它们 放 在 被 调用 者 期 望 找 到 它们 的 地 方 ; 

2. 如 果 被 调用 者 的 栈 帧 大 于 调用 者 的 ， 用 它们 两 者 之 差 扩展 栈 帧 ; 

3. 转移 到 被 调用 者 过 程 体 的 开始 。 

执行 尾 调用 优化 的 另 一 个 问题 与 每 一 种 体系 结构 中 的 寻 址 方式 ， 以 及 调用 和 分 支 指令 的 跨 
距 有 关 。 例 如 ， 在 Alpha 中 不 存在 这 种 问题 ， 因 为 jmp 转 移 到 一 个 过 程 和 jsz 调 用 一 个 过 程 都 使 
用 寄存 器 的 内 容 作 为 其 目标 地 址 ， 它 们 的 不 同 只 是 保存 还 是 忽略 返回 地 址 。 类 似 地 ， 在 MIPS 
体系 结构 中 ，jal 和 j 的 目标 地 址 都 取 26 位 绝对 字 目 标 地 址 。 但 另 一 方面 ， 在 SPARC 中 ，call 
取 30 位 相对 PC 的 字 偏 移 ， 而 ba 取 22 位 相对 PC 的 字 偏 移 ，jmp1 取 由 计算 两 个 寄存 器 之 和 得 到 
的 32 位 绝对 字 节 地 址 。 尽 管 第 一 种 和 第 二 种 指令 对 将 调用 转换 为 分 支 不 会 产生 困难 ， 但 最 后 一 
种 指令 要 求 我 们 在 寄存 器 中 形成 目标 地 址 。 
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15.2 过程 集 成 


过 程 集成 《procedure integration) 用 过 程 体 的 副本 替代 一 个 过 程 调用 ， 它 也 叫做 自动 内 联 
(automatic inlining )。 这 是 一 种 非常 有 用 的 优化 ， 因 为 它 将 不 透明 的 对 象 ， 如 对 有 别名 的 变量 
和 参数 有 未 知 影响 的 对 象 ， 转 变 成 不 仅 能 暴露 这 种 影响 (参见 第 19 章 )， 而 且 能 作为 调用 过 程 
的 一 部 分 而 被 优化 的 对 象 。 

有 些 语言 给 程序 员 提 供 了 一 定 程度 的 控制 内 联 的 手段 。 例 如 C++ 可 为 过 程 指定 一 种 明显 的 inline 
属性 。Ada 也 提供 了 类 似 的 方便 。 两 种 语言 提供 的 都 是 过 程 的 特征 ， 而 不 是 调用 端的 特征 。 尽 管 提供 
这 种 选择 是 受 欢迎 的 ， 但 它 的 作用 和 识别 力 都 不 如 自动 的 过 程 集 成 。 自 动 的 过 程 集成 器 可 以 分 辨 不 同 
的 调用 端 ， 并 能 够 根据 机 器 特有 的 与 性 能 相关 的 准则 选择 要 集成 的 过 程 ， 而 不 是 根据 用 户 的 直觉 。 

当 内 联 进 来 的 过 程 体能 够 使 得 原来 被 循环 中 的 过 程 调 用 所 抑制 的 循环 转换 得 以 进行 时 ， 或 
者 当 被 内 联 进来 的 过 程 体 本 身 是 一 个 循环 ， 而 它 的 伐 入 使 得 含有 此 过 程 调用 的 循环 能 转变 成 储 
套 循环 时 ， 对 内 联 进来 的 过 程 体 进行 优化 就 尤其 有 价值 。 这 种 情形 的 经 典 例子 是 Linpack 中 的 过 
程 saxpy() ， 图 15-5 随 同 其 调用 上 下 文 一 起 给 出 了 该 过 程 。 用 saxpy O 的 过 程 体 替 换 了 
sgefa() 中 对 它 的 调用 ， 并 重新 命名 标号 和 变量 n， 使 它们 不 致 于 冲突 之 后 ， 结 果 很 容易 简化 

成 图 15-6 所 示 的 嵌 套 循环 。 这 个 结果 是 一 个 双 层 风 套 循环 ， 对 它 可 以 应 用 一 系列 有 价值 的 优化 。 
` subroutine sgefa(a,lda,n,ipvt,info) 
integer lda,n,ipvt(1),info 
real a(1da,1) 


real t 
integer isamax,j,k,kp1,1,nm1 


do 30 j = kpi, n 
t = a(1,j) 
if (1 .eq. k) go to 20 
a(1,j) = a(k, 


a(k,j) =t 
continue 
call saxpy(n-k,t,a(kt+1,k),1,a(k+1,3),1) 
continue 


subroutine saxpy(n,da,dx,incx,dy,incy) 
real dx(1),dy(1),da 
integer i,incx,incy,ix,iy,m,mpi,n 
if.(n .le. 0) return 
if (da .eq. ZERO) return 
if (inex .eq. 1 .and. incy .eq. 1) go to 20 
ix =1 
iy = 1 
if (incx .lt. 0) ix = (-n+1)*incx + 1 
if Cincy .1t. 0) iy = (-n*1)*incy + 1 
do 10 i = 1,n 
dy(iy) = dy(iy) + da*dx(ix) 
ix = ix + incx 
iy = iy + incy 
continue 
return 
continue 
do 30 i = 1,n 
dy(i) = dy(i) + da*dx(i) 
continue 
return 
end 


图 15-5 Linpack 例 程 saxpy() 和 它 在 sgefa O 的 调用 上 下 文 








id d£ AL 335 


subroutine sgefa(a,lda,n,ipvt,info) 
integer lda,n,ipvt(1),info 

real a(1da,i) 

real t 


integer isamax,j,k,kpi,1,nmi 


do 30 j = kpi, n 
t = a(l,j) 
if (1 .eq. k) go to 20 
a(1,j) = a(k, 
a(k,j =t 
continue 
if (n-k .le. 0) goto 30 
if (t .eq. 0) goto 30 
do 40 i = 1,n-k 
a(k+i,j) = a(k*i,j) + t*a(k*i,k) 
continue 
continue 





图 15-6 在 集成 saxpy () 后 的 Linpack 例 程 sgefa() 的 一 段 


在 决定 一 个 编译 系统 需要 在 多 大 范围 内 提供 过 程 集成 ， 以 及 如 何 根据 这 种 决定 来 实现 时 ， 
有 若干 需要 考虑 的 问题 。 

首先 是 跨 多 个 编译 单位 、 还 是 仅 在 一 个 编译 单位 内 提供 过 程 集成 ? 如 果 是 前 者 ， 则 需要 有 
一 种 途径 来 保存 各 个 过 程 的 中 间 表 示 ， 或 更 可 能 的 是 将 多 个 编译 单位 的 所 有 过 程 都 保存 在 文件 
中 ， 因 为 一 般 不 可 能 依赖 编译 器 的 用 户 来 决定 要 内 联 的 是 哪个 过 程 。 如 果 是 后 者 ， 则 不 需要 这 
种 机 制 一 -所 需要 的 只 是 在 一 次 编译 过 程 中 ， 为 进行 适当 的 内 联 而 保存 必要 的 中 间 人 代码。 事实 
E, 在 后 一 种 情况 下 可 选择 在 源 代码 形式 上 做 这 种 转换 。 

第 二 ， 若 提供 跨 编译 单位 的 过 程 集成 ， 则 需要 决定 是 否 要 求 调用 者 和 被 调用 者 都 使 用 相同 
的 语言 编写 ， 还 是 允许 用 不 同 语言 编写 ?这 里 主要 的 考虑 是 ， 不 同 的 语言 有 不 同 的 参数 传递 约 
定 和 访问 非 局 部 变量 的 约定 ， 并 且 被 内 联 的 过 程 无 疑 必须 遵守 这 些 约定 。 处 理 这 种 不 同 参数 传 
递 约定 的 一 种 技术 是 ， 在 源 语言 中 提供 诸如 “external language name procedure_name” 的 
声明 作为 分 开 编 译 的 过 程 的 接口 ， 以 便 指明 书写 外 部 过 程 所 用 的 源 语言 。 这 可 使 得 对 一 个 外 部 
过 程 的 调用 遵循 其 声明 指明 的 语言 的 参数 传递 约定 。 

第 三 ， 在 跨 编 译 单位 的 过 程 集成 中 ， 是 否 需 要 保存 已 内 联 过 程 的 中 间 代码 副本 ? 具体 地 ， 
若干 语言 限制 过 程 只 在 它们 所 婴 套 的 作用 域内 是 可 见 的 。 例 如 ，Pascal 的 幅 套 过 程 ，Modula 语 
言 族 和 Mesa 的 无 接口 过 程 ，Fortran 77 的 语句 函数 ， 以 及 Fortran 90 未 声明 为 外 部 的 过 程 都 是 这 
种 情况 。 如 果 保 存 中 间 代 码 的 惟一 目的 是 为 了 实现 过 程 集成 ， 显 然 就 不 需要 将 这 种 过 程 的 副本 
保存 在 为 一 个 编译 单位 所 保存 的 中 间 代 码 中 ,因为 它们 不 会 在 其 作用 域 之 外 被 引用 。 另 一 方面 ， 
如 果 保 存 中 间 代 码 的 目的 是 为 了 在 程序 设计 环境 中 ， 当 对 源 代 码 作 了 改变 后 ， 能 减少 重新 编译 
的 时 间 ， 则 保存 它们 显然 就 是 必须 的 。 

第 四 ， 已 知 一 个 过 程 已 嵌入 到 了 所 有 可 见 的 调用 点 ， 是 否 还 有 必要 编译 这 个 过 程 的 一 个 完 
整 的 副本 ?如 果 曾 经 取 了 这 个 过 程 的 地 址 ， 或 者 在 当前 不 可 见 的 其 他 编译 单位 调用 了 它 ， 则 可 
能 有 这 种 必要 。 

最 后 ， 是 否 应 对 递归 过 程 执 行内 联 ? 显然 在 还 未 发 现 它们 的 所 有 调用 之 前 不 应 内 联 它 们 ， 
因为 否则 的 话 这 会 是 一 个 无 穷 过 程 ， 但 是 ， 为 减少 调用 开销 而 内 联 递归 过 程 一 到 两 次 则 可 能 是 
值得 的 。 
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判断 什么 样 的 过 程 值得 内 联 时 ， 我 们 需要 回答 若干 策略 问题 ， 记 住 我 们 的 目的 是 为 了 加 快 
程序 的 执行 速度 。 从 表面 上 看 ， 似 乎 在 每 一 个 调用 点 内 联 每 一 个 过 程 都 会 使 速度 加 快 ， 但 一 般 
并 不 是 这 样 ， 因 为 它 可 能 导致 任意 增 大 目标 代码 的 体积 ， 并 且 可 能 由 于 耗 尽 了 资源 而 导致 编译 
终止 。 这 并 不 意味 着 内 联 递归 过 程 一 定 就 不 好 ， 而 只 是 我 们 必须 知道 什么 时 候 应 当做 它 和 什么 
时 候 应 当 停止 。 

增加 有 目标 代码 的 体积 有 几 个 潜在 的 缺点 ， 最 重要 的 一 点 是 它 对 高 速 缓存 缺失 的 影响 。 由 于 
处 理 机 速度 和 存储 器 速度 之 间 差 别 的 进一步 增 大 ， 高 速 缓存 缺失 成 为 决定 整体 性 能 的 越 来 越 重 
要 的 因素 。 因 此 决定 内 联 什 么 样 的 过 程 ， 需 要 以 启发 式 策略 或 程序 运行 剖面 信息 的 反馈 作为 依 
据 。 一 些 典型 的 启发 式 策略 考虑 了 下 面 一 些 因 素 : 

1. 过 程 体 的 体积 ( 越 小 越 好 ); 

2. 对 这 个 过 程 的 调用 个 数 有 多 少 (如果 只 有 一 个 调用 ， 内 联 它 将 几乎 总 是 能 减少 执行 时 间 ); 

3. 过 程 是 否 在 循环 内 被 调用 (如果 是 ， 内 联 它 很 可 能 给 其 他 优化 提供 显著 的 优化 机 会 ); 

4. 特定 的 调用 是 否 含 有 一 个 以 上 的 常数 值 参 数 ( 如果 含有 的 话 ， 被 内 联 的 过 程 体 很 可 能 比 
不 内 联 的 情形 优化 得 更 好 )。 

一 旦 选择 好 了 在 什么 调用 点 内 联 什么 样 的 过 程 是 值得 的 标准 之 后 ， 剩 余 的 问题 就 是 如 何 实 
现 这 种 内 联 。 显 然 ， 这 个 处 理 过 程 的 一 部 分 是 用 对 应 的 过 程 体 替 换 调用 。 为 了 通用 起 见 ， 我 们 
假定 在 中 间 代 码 级 别 上 来 做 这 种 处 理 ， 因 此 我 们 能 做 跨 语言 的 内 联 。 我 们 需 处 理 的 三 个 主要 问 
BE: (1) 满 足 所 涉及 语言 的 参数 传递 约定 ，(2) 处 理 调用 者 和 被 调用 者 之 间 的 名 字 冲 突 ，(3) 处 
理 静态 变量 。 | 

首先 ， 如 果 语 言 没有 提供 类 似 干 “external language name procedure name" Hi", 
为 了 能 确定 参数 的 结合 要 做 些 什么 ， 以 及 如 何 使 它们 工作 ， 过 程 集成 必须 包含 足够 的 关于 所 涉 
及 语言 的 参数 传递 机 制 的 信息 。 例 如 ， 它 不 能 用 一 个 传 值 的 C 参 数 去 匹配 传 地 址 的 Fortran 参 数 ， 
除非 这 个 C 参 数 是 指针 类 型 。 类 似 地 ， 也 不 能 只 轻率 地 用 调用 者 的 变量 名 取代 被 调用 者 的 传 值 
参数 ， 例 如 图 1$-7 所 示 那 样 ， 导 致 对 调用 者 的 变量 以 假 乱 真 的 赋值 。 图 15-7 中 ， 变 量 a 同 时 出 
现在 f () 和 g () 中 ; 直接 用 g O 的 正文 替换 对 它 的 调用 将 导致 对 调用 者 的 a 产 生 错误 的 赋值 。 


int a, e; 


a= 2; 
e = g(3,4); 
printf ("Zd\n",a); printf ("fdNa" ,a); 





图 15-7 由 于 在 C 中 科 单 地 用 被 调用 过 程 的 正文 赫 换 调用 ， 导 致 被 调用 
过 程 中 的 变量 遮盖 了 调用 过 程 中 的 变量 
当 对 不 含 源 程 序 符号 名 的 中 间 代码 进行 处 理 时 ， 第 二 个 问题 一 般 不 会 发 生 一 一 符号 引用 通 
常 是 指向 符号 表 登 记 项 的 指针 , 标号 一 般 是 指向 中 间 代 码 位 置 的 指针 。 如 果 处 理 的 是 字符 表示 ， 
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静态 变量 存在 不 同 的 问题 。 具 体 地 ，C 的 静态 存储 类 变量 的 生存 期 包括 程序 的 整个 执行 期 。 
如 果 它 的 声明 是 在 文件 作用 域内 ， 即 不 在 任何 函数 定义 内 ， 其 初始 化 是 在 程序 执行 之 前 。 另 一 
方面 ， 如 果 它 的 声明 在 函数 之 内 ， 它 就 只 在 此 函数 中 可 见 。 如 果 多 个 函数 中 声明 了 名 字 相 同 的 
静态 局 部 变量 ， 它 们 是 不 同 的 对 象 。 

因此 ， 对 于 文件 级 的 静态 变量 ， 在 生成 的 目标 程序 中 只 需要 它 的 一 个 副本 ， 如 果 它 是 有 初 值 
的 ， 则 只 需 一 次 初始 化 。 这 可 以 通过 使 该 变量 具有 全 局 作用 域 ， 并 为 它 提供 全 局 初始 化 来 实现 。 

Cooper、Hall 和 Torczon [CooH92] 的 报告 给 出 了 一 张 表 ， 列 出 了 有 关 过 程 集成 作用 的 注意 
事项 。 他 们 做 了 一 个 实验 ， 在 Linpack 基 准 测 试 程序 双 精 度 版 本 中 ， 他 们 集成 了 静态 统计 出 的 
调用 点 中 44% 的 调用 ， 并 因此 减少 了 98% 的 动态 调用 次 数 。 但 是 与 他 们 期 望 的 程序 性 能 改善 相 
反 ， 当 在 基于 R2000 的 MIPS 系 统 上 运行 时 ， 它 实际 上 导致 程序 性 能 降低 了 8%。 代 码 分 析 表 明 ， 
导致 性 能 降低 的 原因 不 是 因为 关键 循环 中 高 速 缓存 的 作用 和 寄存 器 的 压力 ， 而 是 由 于 空 操 作 的 
个 数 和 浮 点 互 锁 增加 了 75%。 导 致 问题 的 原因 在 于 MIPS 编 译 器 遵循 Fortran 77 标 准 ， 并 且 没有 
做 数据 流 分 析 : Fortran 77 标 准 允许 编译 器 假设 在 过 程 的 入 口 参数 之 间 不 存在 别名 ， 并 在 生成 
代码 中 利用 了 这 一 信息 。MIPS 编 译 器 在 没有 进行 过 程 集 成 的 程序 中 是 这 样 做 了 。 另 一 方面 ， 
由 于 大 部 分 关键 过 程 都 内 联 了 ， 但 又 没有 过 程 间 数据 流 分 析 ， 因 而 无 法 知道 它们 的 参数 是 否 存 
在 别名 ， 故 编译 器 按 保 守 规 则 行事 一 一 它 假定 在 这 些 参数 之 间 存在 别名 ， 并 因此 生成 了 性 能 较 
差 的 代码 。 


15.3 Ati he 


A ka AM (in-line expansion) 是 一 种 用 低级 代码 替代 过 程 调用 的 机 制 。 它 的 作用 与 过 程 集 
成 类 似 (参见 15.2 节 )， 但 它 是 在 汇编 语言 或 机 器 代码 级 别 上 进行 的 ， 因 此 可 用 来 用 手工 编写 
的 代码 序列 替代 高 级 操作 ， 包 括 使 用 编译 器 决 不 会 生成 的 指令 。 因 此 ， 它 既是 一 种 优化 ， 也 是 
为 基本 的 机 器 运算 (如 设置 程序 状态 字 中 的 某 些 位 ) 提供 助 记 符 的 一 种 手段 。 

作为 一 种 优化 ， 内 婴 扩 展 可 用 来 为 那 种 采用 其 他 优化 途径 难于 实现 ， 或 不 可 能 做 到 的 运算 
提供 最 好 的 运算 序列 。 这 种 例子 包括 在 具有 人 允许 条 件 作 刻下 一 条 指令 (如 PA-RISC)， 或 具有 
条 件 传送 指令 的 体系 结构 中 ， 通 过 提供 三 个 模板 就 可 以 不 需要 任何 分 支 指令 而 实现 求 多 至 4 个 
整数 组 成 的 序列 的 极 小 值 的 计算 9S; 其 中 ， 每 一 个 模板 对 应 2 个 、3 个 和 4 个 操作 数 ， 并 且 可 以 
如 下 面 的 LIR 代 码 演示 的 那样 ， 只 用 三 个 异 或 运算 ， 且 不 需 使 用 草稿 寄存 器 ， 实 现 交换 两 个 整 
数 寄存 器 中 的 值 : 


ra < ra xor rb 
rb «- ra xor rb 
ra «- ra xor rb 


内 三 扩展 也 可 作为 过 程 集成 的 一 种 较 弱 的 版 本 : 用 户 、 编 译 器 或 库 的 提供 者 可 为 那些 很 可 
能 从 内 人 赂 受 益 的 过 程 提供 模板 。 

作为 将 那些 与 高 级 语言 运算 完全 不 对 应 的 指令 合并 起 来 的 一 种 机 制 ， 内 估 扩 展 提供 了 一 种 
可 给 予 它们 助 记 符 含义 的 方法 ， 并 使 得 访问 它们 无 需 过 程 调用 开销 。 这 使 得 用 高 级 语言 书写 操 
作 系 统 或 1O 设 备 驱动 程序 比 没有 这 些 助 记 符 时 更 容易 。 例 如 ， 如 果 对 于 一 个 具体 的 体系 结构 ， 
要 设置 程序 状态 字 的 第 15 位 是 关闭 中 断 的 话 ， 可 以 提供 一 个 名 为 DisableInterrupts() 的 


O 当然 最 多 4 个 操作 数 的 选择 是 随意 的 。 通 过 提供 额外 的 模板 ， 求 极 小 值 的 操作 数 个 数 也 可 以 随 你 的 需要 而 
定 ; 或 者 给 定 一 种 具有 充分 表示 这 些 模板 能 力 的 语言 ， 你 也 可 以 提供 一 个 处 理 任意 个 数 操作 数 的 过 程 。 
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模板 ， 它 由 如 下 三 条 指令 组 成 。 


getpsw ra l| copy PSW into ra 
ori ra,0x8000,ra l| set bit 15 
Setpsw ra || copy ra to PSW 


提供 内 嵌 扩 展 能 力 有 两 种 基本 的 机 制 ， 一 种 是 将 汇编 语言 序列 放 在 模板 内 ， 另 一 种 是 通过 
一 个 专门 执行 内 贬 的 编译 遍 ， 称 之 为 门类 器 (inliner)。 对 于 像 上 面 这 个 例子 的 某 些 情况 ， 可 
能 还 需要 第 三 种 方法 ， 即 指明 替代 ra 所 需要 的 实际 寄存 器 的 方法 。 模 板 一 般 由 一 个 头 部 ， 
系列 的 汇编 语言 指令 和 一 个 尾部 组 成 。 头 部 给 出 过 程 名 字 ， 并 可 包含 所 预期 的 参数 个 数 和 类 型 
及 需要 的 寄存 器 。 尾 部 用 来 终止 此 模板 。 例 如 ， 如 果 一 个 特定 的 内 网 器 所 需要 的 信息 组 成 包括 
例 程 名 、 所 预期 的 参数 的 字 节 数 、 一 张 需要 用 真实 寄存 器 来 替代 它们 的 寄存 器 的 表 ， 以 及 一 系 
列 的 指令 ， 它 可 有 如 下 形式 : 


.template  ProcName,ArgBytes,regs- (r1, ..., rn) 

instructions 

.end 

例如 ， 在 SPARC 系 统 上 ， 下 面 的 模板 可 用 来 求 三 个 整数 的 最 大 值 : 


-template max3,12,regs=(er1) 
mov argreg1,@r1 

cmp argreg2,@r1 

movg argreg2,@r1 

cmp argreg3,@ri 

movg argreg3,@ri 

mov Ori,resreg 

.end 


提供 内 傣 扩 展 的 机 制 一 般 要 提供 一 至 多 个 文件 以 及 一 个 编译 遍 ， 其 中 ,文件 包含 了 需要 内 
供 扩 展 的 调用 的 汇编 语言 模板 ， 编 译 遍 搜索 指定 的 模板 文件 ， 寻 找 在 被 编译 模块 中 出 现 的 过 程 
名 ， 并 用 对 应 的 模板 实例 化 后 的 副本 替代 它们 的 调用 。 如 果 编 译 过 程 包括 汇编 步骤 ， 则 基本 上 
就 是 这 些 ; 如 果 不 包 括 ， 则 可 以 对 这 些 模板 进行 预 处 理 以 产生 需要 的 形式 。 

在 多 数 情况 下 ， 这 些 模板 需要 满足 语言 实现 的 参数 传递 约定 ， 而 代码 的 质量 将 在 其 后 执行 
的 优化 中 ， 或 因为 内 幅 的 功能 之 一 就 是 尽 可 能 多 地 消除 参数 传递 开销 而 得 到 改善 。 通 常 ， 消 除 
参数 传递 开销 所 需 做 的 只 是 频繁 的 寄存 器 合并 (参见 16.3.6 节 )。 


15.4 叶 例 程 优 化 和 收缩 包装 


叶 例 程 (leaf routine) 是 处 于 程序 调用 图 中 叶子 位 置 的 过 程 ， 即 不 调用 其 他 过 程 的 过 程 。 
叶 例 程 优化 (leaf-routine optimization) 利用 过 程 是 叶 例 程 来 简化 它 的 参数 传递 ， 并 尽 可 能 地 
删除 过 程 入 口 和 出 口 处 理 中 为 能 够 调用 其 他 过 程 而 引入 的 开销 。 这 种 优化 所 能 做 的 具体 改变 随 
过 程 需 要 的 临时 空间 大 小 及 体系 结构 和 所 采用 的 调用 约定 而 变化 。 : 

收缩 包装 shrink wrapping) 是 叶 例 程 优化 的 一 种 推广 ， 它 可 以 作用 于 调用 图 中 不 是 叶子 的 
例 程 。 其 思想 是 将 过 程 的 入 口 处 理 代码 和 出 口 处 理 代码 沿 着 过 程 内 的 某 些 控制 流 分 别 向 前 和 向 
后 移动 ,直到 它们 “ 相 撞 ”， 因 而 可 以 被 删除 掉 , 或 者 直到 它们 包围 了 一 个 含有 一 个 或 多 个 调用 的 
区 域 ， 并 因此 围 住 了 过 程 的 一 个 只 需 在 此 部 分 才 正 确 有 效 地 行使 其 职责 的 最 小 部 分 。 


15.4.1 MARRE 
初 看 人 们 会 对 许多 程序 中 的 过 程 是 叶 例 程 的 百分比 如 此 之 高 而 感到 惊奇 。 另 一 方面 ， 对 一 





， 常 也 浪费 时 间 ， 并 且 还 可 能 是 不 正确 的 。 考 虑 图 15-8 的 
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些 简 单 情形 进行 考察 之 后 就 会 看 出 ， 实 际 情况 确实 应 该 如 此 。 具 体 考 虑 一 个 程序 ， 它 的 调用 图 
是 一 棵 二 又 树 , 即 一 棵 每 一 个 结 点 至 多 只 有 两 个 后 继 的 树 。 通 过 推导 不 难 证 明 ， 这 种 树 的 叶子 
结 点 的 数目 比 非 叶 子 结 点 的 数 且 要 多 , 因此 在 它 的 调用 图 中 有 半数 以 上 的 过 程 是 叶 例 程 。 当 然 ， 
这 种 比例 并 不 适合 所 有 情况 : 每 个 结 点 有 两 个 以 上 后 继 的 树 会 使 这 个 比率 增 大 ， 而 那 种 不 是 树 
的 图 或 那 种 包含 递归 例 程 的 图 则 可 能 将 此 比率 减少 为 0。 

因此 ， 降 低 叶 例 程 调用 开销 的 优化 常常 是 大 受 欢 迎 的 ， 如 我 们 将 看 到 的 那样 , 它 需 要 付出 
的 努力 也 相对 较 小 。 确 定 是 否 可 应 用 叶 例 程 优 化 有 两 个 主要 的 因素 。 第 一 个 是 显然 的 一 一 这 种 
例 程 没 有 调用 其 他 例 程 。 第 二 个 与 体系 结构 有 关 ， 并 需要 稍微 多 做 一 些 工 作 。 我 们 必须 确定 这 
个 过 程 需要 多 少 存储 空间 ， 包 括 寄 存 器 和 栈 空 间 。 如 果 它 需要 的 寄存 器 个 数 小 于 可 用 的 调用 者 
保护 的 寄存 器 和 短期 用 途 的 草稿 寄存 器 个 数 ， 则 可 调整 它 只 使 用 这 些 寄 存 器 。 对 于 没有 寄存 器 
窗口 的 体系 结构 ， 这 种 寄存 器 的 个 数 是 由 软件 约定 的 ， 或 由 一 个 过 程 闻 的 寄存 器 分 配 程序 设置 
(参见 19.6 节 )， 因 此 ， 可 以 用 一 种 有 利于 叶 例 程 优化 的 方式 来 进行 分 配 。 对 于 SPARC， 它 有 独 
立 于 过 程 调 用 和 返回 的 保存 和 恢复 寄存 器 窗口 的 指令 ， 因 此 需要 做 的 只 是 使 被 调用 过 程 不 包含 
save 和 restore 指 令 ， 并 且 限 制 它 只 使 用 调用 者 的 out 寄 存 器 集合 中 的 寄存 器 和 草稿 寄存 器 。 

如 果 叶 例 程 也 不 需要 栈 空 间 ， 例 如 由 于 它 不 操纵 任何 需要 对 其 元 素 寻 址 的 局 部 数组 ， 并 且 
有 足够 的 寄存 器 存放 它 的 标量 ， 则 不 需要 创建 和 收回 叶 例 程 的 栈 帧 。 

如 果 叶 例 程 很 小 ， 或 只 在 几 个 地 方 调 用 ， 它 可 能 是 过 程 集 成 的 最 好 候选 者 。 
15.4.2 收缩 包装 

前 面 给 出 的 收缩 包装 的 定义 不 是 十 分 精确 。 当 我 们 移动 人 口 和 出 口 处 理 代码 至 所 包围 的 最 
小 代码 段 中 含有 调用 ， 或 需要 使 用 被 调用 者 保护 的 寄存 
器 时 ， 我 们 可 能 最 终 将 那 段 代码 放置 在 循环 内 ， 或 者 可 
能 在 不 同 的 控制 流 路 径 上 创建 它 的 多 个 副本 。 两 种 情况 
都 会 导致 浪费 一 一 前 者 浪费 时 间 ， 而 后 者 浪费 空间 ， 通 
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流 图 。 如 果 基 本 块 B3 和 B4 都 需要 将 被 调用 者 保护 的 寄存 
器 分 配给 变量 a， 我 们 可 能 会 在 这 两 个 基本 块 的 每 一 个 
前 面 放置 寄存 器 保护 代码 ， 在 B4 之 后 放置 恢复 代码 。 如 
果 这 样 做 ， 并 且 执 行路 径 包 含 了 B3 和 B4 的 话 ， 就 会 导致 ” 图 15-8 不 正确 地 放置 保存 和 恢复 分 配 
在 B4 的 入 口 保存 错误 的 值 。 给 变量 a 的 寄存 器 的 代码 的 例子 

相反 ,我 们 的 目的 是 移动 人口 处 理 和 出 口 处 理 代 码 包围 需要 它们 的 最 小 代码 段 ， 同 时 要 求 
它们 不 在 循环 内 ， 并 且 没 有 导致 刚才 描述 的 那 种 问题 。 为 了 做 到 这 一 点 ， 我 们 采用 由 Chow 
[Chow88] 开 发 的 数据 流 分 析 ， 这 种 分 析 方 法 使 用 了 部 分 元 余 消 除数 据 流 分 析 中 用 到 的 一 些 相 
似 的 性 质 。 对 于 一 个 基本 块 i， 我 们 定义 RUSE(i) 是 基本 块 i 中 用 到 的 或 定义 的 寄存 器 集合 。 下 
面 我 们 定义 称 为 寄存 器 可 预见 性 和 寄存 器 可 用 性 的 两 种 数据 流 性 质 。 一 个 寄存 器 在 流 图 的 一 
点 上 是 可 预见 的 (anticipatable ) ， 如 果 从 那 一 点 开始 的 每 一 条 执行 路 径 都 包含 该 寄存 器 的 定义 
或 使 用 ;一 个 寄存 器 是 可 用 的 (available )， 如 果 到 达 那 一 点 的 每 一 条 执行 路 径 都 包含 该 寄存 
器 的 定义 或 使 用 (参见 13.3 节 部 分 宛 余 删除 中 使 用 的 类 似 属 性 ) 。 我 们 用 R4ANTin(D、 
RANTout(i), RAVin(i), RAVout() RAREB—-TERAMA DAH ARERR. FE. R 
们 有 数据 流 方程 
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RANTout(i) = (^) RANTinO) 


jeSucc) 
RANTin(i) — RUSE(i) U RANTout(i) 
和 
RAVin(i) = (^| RAVowt() 
jePred(i) 
RAVout(i) = RUSE(i) U RAVin(i) 


其 中 ， 初 始 时 RANTout(exit)=RAVin(entry)= 8。 注意 这 些 集合 可 用 位 向 量 来 表示 ， 对 于 至 
多 32 个 寄存 器 的 机 器 而 言 ， 这 种 位 向 量 是 一 个 字 。 

收缩 包装 的 思想 是 ， 在 一 个 使 用 是 可 预见 的 地 方 插入 保护 寄存 器 的 代码 ， 在 一 个 使 用 是 可 
用 的 地 方 插入 局 复 代码 。 注 意 ， 这 两 个 问题 是 对 称 的 ， 因 为 它们 的 数据 流 方程 相互 是 对 方 的 镜 
像 ， 而 且 插 入 保护 和 恢复 代码 的 条 件 也 是 这 样 。 于 是 ， 确 定 出 适当 的 关于 保护 的 数据 流 方程 ， 
同时 也 就 自动 给 出 了 对 应 的 关于 恢复 的 方程 。 我 们 选择 在 基本 块 的 人口 并 且 是 通 向 使 用 寄存 器 
7 的 一 个 或 多 个 连续 基本 块 的 最 早点 插入 保护 寄存 器 r 的 代码 。 对 于 满足 此 条 件 的 基本 块 z， 我 们 
一 定 有 re RANTin()für € RANTinQ)， 其 中 je Pred(i)。 另 外 ， 在 前 面 还 必须 没有 保护 过 r， 因 为 
引入 另 一 个 保护 代码 会 导致 保护 错误 的 值 ， 因 此 r RAVin(i)。 于 是 ， 由 此 分 析 得 出 ， 在 基本 块 
i 入 口 要 保护 的 寄存 器 集合 是 

SAVE() = (RANTin(i) — RAVini) n. (^| (REGS — RANTinG)) 

jePred(i) 

其 中 REGS 是 所 有 寄存 器 组 成 的 集合 ， 并 且 对 称 地 ， 在 基本 块 i 出 口 要 恢复 的 寄存 器 集合 是 

RSTR(i) = (RAVout(i) - RANTout()) n. 门 (REGS ~ RAVout() 

jeSucc() 

但 是 ， 这 些 保护 和 恢复 点 的 选择 受到 两 个 问题 的 困扰 ， 一 个 问题 与 图 15-8 的 例子 中 涉及 的 
与 恢复 相对 应 的 保护 有 关 。 我 们 解决 它 的 方法 是 分 割 由 B2 到 B4 的 边 ， 并 将 当前 在 B4 人 口 的 寄 
存 器 保护 代码 放置 在 这 个 新 的 空 基 本 块 中 ; 我 们 也 用 对 应 的 方式 处 理 恢 复 代码 。 第 二 个 问题 是 
这 种 保护 和 恢复 点 的 选择 没有 有 效 地 处 理 保护 和 恢复 代码 所 包围 的 是 循环 内 的 一 个 子 图 的 情 
况 。 解 决 这 个 问题 的 方法 是 ， 根 据 被 编译 例 程 的 控制 流 结构 来 识别 嵌 在 循环 内 的 子 图 ， 并 将 保 
护 和 恢复 代码 从 循环 中 迁 出 。 

作为 这 种 方法 的 一 个 例子 ， 考 虑 图 15-9 的 流 图 ， 假 设 r1 到 r7 用 于 存放 参数 ，r8 到 r15 是 
被 调用 者 保护 的 寄存 器 。 则 RUSEO 的 值 如 下 : 

RUSE(entry) = @ 


RUSE(B1) = {r2} 
RUSE(B2) = {r1} 
RUSE(B3) = {r1,r2,r8} 
RUSE(B4) = {ri,r2} 
RUSE(exit) =@ 

RANTinQ). RANTout(). RAVinOTURAVoutOR fi Zu F: 
RANTin(entry) = {r1,r2} RANTout(entry) = {ri,r2} 
RANTin(B1) = {ri,r2} RANToOut(B1) = {ri,r2} ` 
RANTin(B2) = {ri,r2} RANTout(B2) = (ri,r2) 
RANTin(B3) = {r1,r2,r8} RANTout(B3) = (ri,r2] 


RANTin(B4) = {r1,r2} RANTout(B4) =6 
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RANTin(exit) =6 RANTout(exit) =ø 
RAVin(entry) =ø RAVout(entry) =Ø 
RAVin(B1) =6 RAVout(B1) = (r2) 
RAVin(B2) = {r2} RAVout(B2) = {ri,r2} 
RAVin(B3) = {r2} RAVout(B3) = {ri,r2,r8} 
RAVin(B4) = (ri,r2) RAVout(B4) = {r1,r2} 
RAVin(exit) = {r1,r2} RAVout (exit) = {r1,r2} 
最 后 ，S4YEO 和 RSTRO 的 值 如 下 : 
SAVE(entry) =Ø RSTR(entry =ø 
SAVE(B1) = {ri,r2} RSTR(B1) 一 分 
SAVE(B2) Lg RSTR(B2) a 
SAVE(B3) = {r8} RSTR(B3) = {r8} 
SAVE(B4) = RSTR(B4) = {r1,r2} 
SAVE(exit) = RSTR(exit) =ø 


因为 1 和 r2 用 于 参数 传递 ， 这 里 惟一 感 兴趣 的 寄存 器 是 z8 ， 并 且 S4YEO 和 RSTRO 的 值 告诉 我 
们 应 当 在 基本 块 B3 的 入 口 保护 它 ， 并 在 B3 的 出 口 恢复 它 ， 结 果 流 图 如 图 15-10 所 示 。 





save r8 
r8 «€ r2- 1 
ri «€ r8 +2 
restore r8 
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图 15-9 用 于 收缩 包装 的 LIR 流 图 之 例 图 15-10 图 15-9 中 的 例子 经 过 收缩 包装 的 结果 
15.5 小 结 


本 章 我 们 讨论 了 作用 于 整个 过 程 的 三 对 优化 方法 ， 其 中 除 一 种 优化 方法 之 外 ， 其 余 都 不 需 
要 进行 数据 流 分 析 。 这 三 对 优化 如 下 : 

1. 尾 递归 删除 和 更 一 般 的 尾 调 用 优化 将 调用 转变 成 分 支 。 具 体 地 说 ， 尾 调用 删除 识别 过 程 
中 那 种 递归 调用 自己 并 且 从 调用 返回 之 后 不 做 任何 事情 的 调用 。 这 种 调用 总 是 能 够 转换 成 首先 
复制 实 参 到 哑 参 ， 然 后 转移 到 过 程 体 开始 处 的 代码 。 

尾 调用 优化 处 理 类 似 的 情形 ， 但 所 调用 的 例 程 不 必 与 调用 过 程 相同 。 这 种 优化 所 做 的 事情 
与 尾 递归 删除 相同 ， 但 需要 更 小 心 ， 因 为 被 调用 的 例 程 可 能 不 在 同一 个 编译 单位 。 为 了 做 到 这 
一 点 ， 我 们 需要 知道 被 调用 例 程 希望 在 何 处 找到 它 的 参数 ， 它 的 栈 帧 有 多 大 ， 以 及 为 了 开始 执 
行 它 ， 控 制 应 转移 到 何 处 。 

2. 过 程 集成 和 内 人 嵌 扩 展 是 用 于 同一 种 优化 的 两 个 名 字 ， 即 用 被 调用 过 程 体 替 代 其 调用 。 但 
在 本 书 中 ， 我 们 用 它们 表示 这 种 优化 的 两 种 不 同 版 本 : 过 程 集成 在 编译 处 理 的 较 早 阶段 进行 ， 
以 便利 用 那些 以 单个 过 程 作为 其 优化 作用 域 的 许多 优化 (例如 、 集 成 一 个 其 过 程 体 是 循环 且 处 
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图 15-11 过 程 优化 (用 黑体 字 标 明 ) 在 激进 优化 编译 器 中 的 位 置 
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在 循环 体 中 的 调用 )， 而 内 柑 扩 展 在 编译 过 程 的 较 后 阶段 进行 ， 以 便利 用 那些 在 特定 体系 结构 
中 特别 有 效 的 低级 操作 。 

3. 叶 例 程 优化 利用 了 所 调用 过 程 中 占 较 大 比例 的 是 叶 例 程 的 这 一 事实 。 叶 例 程 是 本 身 不 含 
调用 的 例 程 ， 因 此 它们 不 必 有 一 般 例 程 的 完整 调用 负担 ( 栈 帧 、 寄 存 器 保护 与 恢复 等 )。 收 缩 
包装 在 效果 上 是 时 例 程 优化 的 一 种 推广 ， 它 沿 过 程 的 控制 流 路 径 向 前 移动 人口 处 理 代码 并 向 后 
移动 出 口 处 理 代码 ， 使 得 一 旦 它们 相遇 便 相互 消灭 对 方 。 作 为 结果 ， 经 过 收缩 包装 处 理 的 例 程 
中 ， 有 些 路 径 可 能 含有 完整 的 入 口 处 理 和 出 口 处 理 代码 ， 而 另 一 些 路 径 则 没有 。 

图 15-11 用 黑体 字 标 明了 这 些 优化 通常 在 优化 顺序 中 的 位 置 。 


15.6 进一步 阅读 


Dongarra 等 人 在 [DonB79] 中 介绍 了 Linpack 基 准 测 试 程序 。15.2 节 介绍 的 Cooper、Hall 和 
Torczon 关 于 过 程 集 成 的 实验 数据 描述 是 在 [CooH92] 中 找到 的 。 
[Chow88] 中 介绍 了 Chow 的 收缩 包装 方法 。 


15.7 练习 


15.1 在 尾 调用 优化 中 ， 我 们 怎样 才能 保证 有 足够 的 栈 空间 分 配给 被 调用 者 ?(a) 在 什么 
条 件 下 可 以 在 编译 时 保证 这 一 点 ? (b) 将 这 一 工作 分 为 编译 时 和 连接 时 是 否 能 使 其 
简化 或 使 其 应 用 范围 更 广泛 ? 如 果 能 ， 解 释 怎样 做 ， 如 果 不 能 ， 解 释 为 什么 不 
能 ? 
ADV 152 (a) 推 广 尾 调用 优化 使 它 能 发 现形 成 递归 循环 的 一 组 例 程 ， 即 对 于 例 程 x 到 x，r; 只 
调用 r:， rs 只 调用 r3,…，r 只 调用 r;。(b) 什 么 条 件 下 这 些 例 程 体 可 以 合并 成 单个 
例 程 体 ， 如 何 确定 这 种 条 件 是 否 成 立 ? 
15.3 在 做 叶 例 程 优 化 时 ， 我 们 怎样 才能 保证 对 所 有 的 时 例 程 都 有 足够 的 栈 空间 ? (a) 在 
“什么 条 件 下 可 以 在 编译 时 保证 这 一 点 ?(b) 将 此 工作 分 成 编译 时 和 连接 时 来 做 是 否 


能 使 它 简化 ， 或 使 其 应 用 范围 更 广泛 ? 如 果 能 ， 解 释 如 何 做 ， 如 果 不 能 ， 解 释 为 


什么 不 能 ? | 

15.4 设计 一 种 保存 一 次 编译 单位 生成 的 MIR 和 符号 表 的 紧凑 格式 ， 使 得 能 够 做 跨 编 译 
单位 的 过 程 集成 。 假 定 所 有 编译 单位 编译 的 都 是 相同 源 语言 的 模块 。 

15.5 遵循 15.3 节 给 出 的 约定 ， 写 出 对 LIR 代 码 执行 内 联 的 ICAN 人 代码。 作为 这 个 练习 的 
一 部 分 ， 设 计 一 种 表示 模板 文件 的 ICAN 数 据 结 构 ， 并 通过 调用 
read templates (file, struc) 将 它 读 和 人 到 适当 的 数据 结构 中 ， 其 中 /ie 是 模板 文 
件 名 ，struc 是 存放 读 入 内 容 的 结构 。 | 

15.6 编写 一 个 对 LR 代码 做 叶 例 程 优 化 的 CAN 过 程 ， 假 定 参数 传递 在 寄存 器 ri 至 r6 中 ，r7 
至 r13 是 调用 者 保存 的 寄存 器 。 要 检查 是 否 需 要 栈 空间 ， 并 且 仅 当 需 要 时 才 分 配 它 。 

157 编写 一 个 ICAN 例 程 Tail_Call_Opt (enl, nl, ninstl, LBlock1, en2, n2, 
ninst2，LBlock2)， 它 的 参数 给 出 两 个 LIR 过 程 ， 其 中 第 一 个 过 程 含 对 第 二 个 
过 程 的 尾 调 用 ， 这 个 例 程 修改 它们 的 代码 使 得 用 分 支 替代 此 尾 调 用 。 假 定 第 一 个 
过 程 从 rl 开始 的 寄存 器 依次 传递 nargs 个 参数 给 第 二 个 过 程 ， 帧 指针 和 栈 指针 分 别 
是 r20 和 r21， 且 enl1 和 en2 是 这 两 个 过 程 的 入 口 基本 块 的 个 数 。 
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第 16 章 寄存 器 分 配 


本 章 的 内 容 包 括 寄存 器 分 配 和 指派 ， 对 于 多 数 体系 结构 而 言 ， 这 是 两 种 最 重要 的 优化 。 它 
们 涉及 的 问题 是 如 何 使 得 CPU 中 寄存 器 之 间 的 信息 交换 量 最 小 。 寄 存 器 的 个 数 一 般 很 少 ， 但 访 
问 速度 很 快 ， 而 且 无 论 在 寄存 器 与 存储 器 中 间 存 在 什么 样 的 存储 层次 结构 ， 包 括 一 级 或 多 级 高 
速 缓存 和 主 存储 器 ， 访 问 它 们 都 比 访问 寄存 器 要 慢 ， 并 且 它 们 都 比 寄存 器 的 容量 要 大 。 一 般 而 
言 ， 离 寄存 器 越 远 ， 其 容量 就 越 大 ， 但 其 访问 速度 也 越 慢 。 

寄存 器 分 配 最 好 在 低级 中 间 代 码 或 汇编 语言 上 进行 ， 因 为 它 要 求 对 存储 器 的 所 有 存 取 (E 
括 它 们 的 地 址 计算 ) 都 必须 明确 地 表示 出 来 。 

我 们 首先 讨论 一 种 较 快 且 相当 有 效 的 局 部 方法 ， 这 种 方法 与 使 用 次 数 和 循环 父 套 有 关 。 接 
着 详细 介绍 一 种 更 有 效 的 利用 图 着 色 进 行 全 局 寄存 器 分 配 的 方法 ， 并 对 其 他 一 些 使 用 图 着 色 但 
一 般 没 这 么 有 效 的 方法 给 出 简单 的 评论 。 我 们 也 简要 地 提 及 一 种 将 寄存 器 分 配 看 成 是 背包 问题 
的 方法 和 三 种 利用 过 程 的 控制 树 来 指导 分 配 的 处 理 方法 。 

这 一 章 的 重点 是 图 着 色 全 局 寄存 器 分 配 。 图 着 色 全 局 寄存 器 分 配 通 常 能 产生 非常 有 效 的 分 
配 ， 而 且 在 编译 速度 上 没有 较 大 的 开销 。 图 着 色 全 局 寄存 器 分 配 从 另 一 个 角度 看 待 两 个 对 象 必 
须 同 时 在 寄存 器 中 这 一 事实 , 即将 必须 同时 在 寄存 器 的 两 个 对 象 看 成 是 它们 排斥 相同 的 寄存 器 。 
它 用 图 中 的 结 点 表示 这 些 对 象 ， 并 用 结 点 之 间 的 弧 表 示 这 种 排斥 ( 称 为 冲突 
(interferences)) ; 结 点 也 可 以 代表 实际 的 寄存 器 ， 而 弧 则 代表 排斥 ， 例 如 存储 访问 中 的 基地 
址 不 能 使 用 寄存 器 r0 就 是 一 种 排斥 。 给 出 一 个 对 应 于 整个 过 程 的 图 ， 这 种 方法 尝试 着 对 结 点 
进行 着 色 ， 其 中 颜色 的 数目 等 于 可 用 的 实际 寄存 器 个 数 ， 使 得 每 一 个 结 点 被 指派 一 种 与 它 相 邻 
结 点 不 同 的 颜色 。 如 果 不 能 实现 这 一 点 ， 则 引入 额外 的 代码 将 一 些 量 保存 到 存储 器 中 ， 并 在 需 
要 时 重新 将 它们 取 回 到 寄存 器 ， 这 个 过 程 重复 直到 实现 满意 的 着 色 为 止 。 如 我 们 将 看 到 的 ， 即 
使 是 非常 简单 的 图 着 色 问 题 也 是 NP — 完全 的 ， 因 此 使 得 全 局 寄存 器 分 配 尽 可 能 有 效 的 最 重要 
方法 之 一 是 使 用 高 度 有 效 的 启发 式 策略 。 | 

关于 寄存 器 分 配 更 进一步 的 讨论 在 19.6 节 给 出 ， 其 中 讨论 了 过 程 间 的 方法 。 这 些 方法 中 有 
一 些 是 作用 于 汇编 语言 级 别 以 下 的 代码 ， 即 ， 作 用 于 带 有 数据 使 用 样式 信息 注释 的 可 重 定位 目 
标 模块 。 


16.1 寄存 器 分 配 和 指派 


d 422 E (register allocation) 确定 在 程序 执行 的 每 一 点 上 ， 因 放 在 机 器 的 寄存 器 中 而 
可 能 获 益 的 值 中 (变量 、 临 时 变量 、 大 常数 )， 哪 些 值 应 当 放 在 寄存 器 中 。 寄 存 器 分 配 很 重要 ， 
因为 寄存 器 几乎 总 是 稀有 资源 一 一 它 几 乎 总 是 不 足以 容纳 你 想 放 入 其 内 的 所 有 对 象 一 并 且 因 
为 在 RISC 系 统 中 ， 除 数据 传送 之 外 的 几乎 所 有 运算 ， 所 操作 的 都 完全 是 寄存 器 而 不 是 存储 器 
的 内 容 。 而 且 ， 在 现代 CISC 的 实现 中 ， 寄 存 器 与 寄存 器 的 运算 比 那些 含 一 个 或 两 个 存储 器 操 
作 数 的 运算 要 明显 快 很 多 。 图 着 色 是 全 局 (CEA) 寄存 器 分 配 的 一 种 高 度 有 效 的 方法 ， 我 们 
也 简要 地 介绍 一 种 与 它 有 关 的 、 称 为 基于 优先 级 的 图 着 色 方法 。 在 19.6 节 ， 我 们 讨论 在 编译 时 
或 连接 时 施加 于 整个 程序 的 过 程 间 寄存 器 分 配方 法 。 
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寄存 器 指派 (register assignment) 确定 每 一 个 已 分 配 为 可 放 在 寄存 器 中 的 值 应 当 放 在 哪个 
寄存 器 中 。 寄 存 器 指派 对 于 RISC 体 系 结构 没有 多 少 工 作 要 做 ， 因 为 所 有 寄存 器 要 么 是 一 样 的 ， 
要 么 分 成 两 类 几乎 相同 的 集合 一 一 一 类 是 通用 或 整数 寄存 器 ， 另 一 类 是 浮 点 寄存 器 一 一 并 且 它 
们 各 自 执行 的 运算 是 互 斥 的 或 几乎 是 互 扩 的 。 有 时 存在 的 一 个 明显 例外 是 ， 这 两 类 寄存 器 集合 
一 般 都 可 用 于 容纳 要 从 存储 器 的 一 个 区 域 复制 到 另 一 个 区 域 的 一 字 或 双 字 的 值 ， 选 择 使 用 哪 一 
个 集合 取决 于 当时 占用 寄存 器 的 其 他 值 是 什么 。 第 二 个 例外 是 在 32 位 的 系统 中 ， 一 般 限制 双 字 
量 使 用 一 对 奇偶 寄存 器 ， 因 此 需要 注意 保证 正确 地 指派 它们 。 对 于 CISC 系 统 ， 寄 存 器 指派 典 
型 地 需要 考虑 某 些 寄存 器 的 特殊 用 法 , 例如 寄存 器 用 作 栈 指针 或 被 字符 串 操作 指令 隐 式 地 使 用 ， 
如 Intel 386 体 系 结构 系列 中 出 现 的 情形 。 . 

那 种 在 中 级 中 间 代 码 上 进行 全 局 优化 的 编译 器 中 ， 寄 存 器 分 瑟 几 乎 总 是 在 生成 低级 代码 或 
机 器 代码 之 后 。 它 的 前 面 是 指令 调度 (参见 17.1 节 )， 可 能 还 有 软 流 水 〈 参 见 17.4 节 )， 并 且 其 
后 可 能 还 有 另 一 遍 指令 调度 。 那 种 在 低级 中 间 代 码 上 进行 全 局 优化 的 编译 器 中 ， 寄 存 器 分 配 党 
常 属于 最 后 做 的 少数 几 种 优化 之 一 。 在 这 两 种 方式 中 ， 重 要 的 是 必须 在 寄存 器 分 配 之 前 暴露 所 
有 的 寻 址 计算 ， 如 数组 元 素 的 寻 址 ， 以 便 在 寄存 器 分 配 处 理 中 能 考虑 到 它们 对 寄存 器 的 使 用 。 

如 果 寄 存 器 分 配 是 在 中 级 中 间 代 码 上 进行 的 ， 一 般 需要 保留 少数 寄存 器 给 代码 生成 作为 临 
时 之 用 ， 它 们 用 于 那些 没有 分 配 寄 存 器 的 量 ， 以 及 用 于 诸如 开关 表 这 样 的 更 为 复杂 的 结构 。 这 
对 于 基于 优先 级 的 图 着 色 方法 (参见 16.4 节 ) 而 言 是 一 个 明显 障碍 ， 因 为 基于 优先 级 的 图 着 色 
方法 对 这 些 保留 用 于 指定 目的 的 寄存 器 个 数 有 限制 ， 而 一 般 情况 下 我 们 事先 并 不 知道 实际 需要 
多 少 个 ， 因 此 必须 保留 可 能 需要 的 最 大 寄存 器 个 数 ， 从 而 减少 了 分 配器 可 用 的 寄存 器 个 数 。 

在 着 手 讨 论 全 局 寄存 器 分 配 之 前 ， 我 们 考虑 有 哪 几 种 对 象 应 当 作为 寄存 器 分 配 的 候选 ， 并 
简要 介绍 两 种 较 老 的 局 部 方法 ， 第 一 种 方法 是 Freiburghouse [Frei74] 开 发 的 ， 第 二 种 用 于 PDP- 
11 BLISS 编 译 器 和 它 的 后 儿 代 版 本 , 包括 21.3.2 节 讨论 的 DEC GEM 编 译 器 。 在 许多 体系 结构 中 ， 
包括 所 有 的 RISC， 所 有 操作 都 是 在 寄存 器 之 间 进 行 的 ， 甚 至 从 存储 器 到 存储 器 之 间 传 送 对 象 ， 
在 实现 上 也 是 先 将 它们 取 到 寄存 器 ， 然 后 再 将 它们 存 到 存储 器 中 ， 因 此 初 看 起 来 似乎 每 一 种 对 
象 都 应 作为 候选 ， 但 事实 不 完全 是 这 样 一 输入 /输出 普遍 地 是 从 存储 器 到 存储 器 来 完成 的 ， 而 
不 通过 寄存 器 ， 并 且 共 享 多 处 理 机 中 处 理 机 之 间 的 通信 也 几乎 完全 是 通过 存储 器 来 实现 的 。 还 
有 ， 可 以 用 指令 的 直接 数 域 表示 的 小 常数 一 般 也 不 必 考 虑 作为 侠 选 ， 因 为 它们 可 以 通过 比 占据 
寄存 器 更 有 效 的 方式 来 使 用 。 事实 上 , 其 他 所 有 种 类 的 对 象 都 应 当 考虑 作为 寄存 器 分 配 的 对 象 ， 
如 局 部 变量 、 非 局 部 变量 、 较 大 而 不 能 放 在 指令 直接 数 域 的 常数 、 临 时 变量 ， 等 等 ， 其 至 也 可 
以 考虑 单个 的 数组 元 素 (参见 20.3 节 )。 


16.2 局 部 方法 


第 一 种 局 部 方法 是 启发 式 方法 ， 依 据 大 多 数 程序 的 多 数 执行 时 间 都 花 在 循环 上 这 一 原理 ， 

Cath EERE EAPO EGAN, 更 高 于 不 包含 在 循环 内 的 代码 。 其 思想 是 启发 式 地 ， 

或 根据 剖面 信息 确定 各 种 可 分 配对 象 的 分 配 效 益 。 如 果 没 有 可 用 的 剖面 信息 ， 它 通过 将 变量 由 

于 分 配 了 寄存 器 而 得 到 的 节省 值 乘 以 一 个 与 循环 柑 套 深度 有 关 的 因子 来 估计 分 配 效 益 ， 这 个 因 

子 一 般 是 10*?*， 其 中 depth 是 第 depth 层 循环 S 。 此 外 ， 也 应 考虑 变量 在 基本 块 和 人 口 或 出 口 的 活 

跃 性 ， 因 为 活跃 变量 在 基本 块 的 出 口 需 要 保存 ， 除 非 有 足够 多 的 寄存 器 可 指派 一 个 给 它 。 我 们 
定义 下 面 一 些 量 : 


P 
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1. ldcost 是 目标 机 取 数 指令 的 执行 代价 。 

2. stcost 是 存 数 指令 的 执行 代价 。 

3. mvcost 是 寄存 器 到 寄存 器 的 传送 指令 的 代价 。 

4. usesave 是 每 一 次 使 用 那 种 存放 在 寄存 器 中 而 不 是 在 存储 器 中 的 变量 所 节约 的 代价 。 

5. defsave 是 每 一 次 对 那 种 存放 在 寄存 器 中 而 不 是 在 存储 器 中 的 变量 赋值 所 节约 的 代价 。 

于 是 ， 对 一 个 特定 的 变量 vy， 每 次 基本 块 i 被 执行 时 ， 它 的 执行 时 间 上 的 净 节 约 代价 是 
netsave(v, i)， 其 定义 如 下 : 


netsave(v, i)- u - usesave + d . defsave —1 - ldcost —s - stcost 


其 中 u 和 d 分 别 是 变量 v 在 基本 块 i 中 的 使 用 和 和 定 值 次 数 ，! 和 s=0 或 1， 分 别 取决 于 在 该 基本 块 的 开 
始 是 否 需 要 取 v 或 在 该 基本 块 的 结束 是 否 需要 存 v。 

因此 ， 如 果 Z 是 一 个 循环 ， 并 且 ; 的 取 值 范围 是 此 循环 内 的 基本 块 ， 则 

10%. x" — netsave(v,i) 

ieblocks(L) 

是 在 循环 中 分 配 "到 寄存 器 得 到 的 合理 的 估计 获 益 值 。 给 定 R 个 可 分 配 的 寄存 器 一 它们 一 般 
总 是 少 于 总 的 寄存 器 个 数 ， 因 为 其 中 有 一 些 必须 保留 用 于 过 程 连接 、 短 期 使 用 的 临时 量 等 一 在 
计算 了 这 种 估计 值 后 ， 你 只 需 简 单 地 在 每 一 个 循环 或 循环 嵌 套 中 分 配 具 有 最 大 估计 获 益 值 的 R 
个 变量 。 对 循环 修 套 进行 寄存 器 分 配 之 后 ， 再 使 用 同样 的 获 益 度量 为 循环 之 外 的 代码 进行 分 配 。 

我 们 有 时 也 通过 考虑 一 个 基本 块 ;的 P 个 前 驱 和 3 个 后 继 来 改善 这 种 分 配方 法 。 如 果 这 些 前 
驱 和 后 继 基本 块 都 指派 变量 到 相同 的 寄存 器 中 ， 则 对 于 基本 块 ;， 该 变量 的 ! 和 s* 的 值 都 是 0。 在 
考虑 基本 块 i 的 同时 考虑 它 的 前 驱 和 后 继 时 会 发 现 ， 我 们 有 可 能 将 变量 v 放 在 与 在 基本 块 i 前 后 的 
某 些 或 所 有 基本 块 所 分 配 的 寄存 器 不 同 的 寄存 器 中 。 如 果 是 这 样 ， 这 个 变量 所 带 来 的 额外 代价 
至 多 是 (P+ S): mvcost， 妈 每 一 个 前 驱 和 后 继 基 本 块 有 一 次 传送 代价 。 

这 种 方法 实现 简单 ， 常 常 也 工作 得 非常 好 ， 而 且 直到 下 一 节 将 介绍 的 全 局 方法 用 于 实际 产 
品 之 前 ， 一 直 都 是 过 去 优化 编译 器 中 盛行 的 方法 ， 例 如 IBM 的 360 和 370 系 列 机 的 Fortran H 优 化 
编译 器 。 

PDP-11 的 BLISS 优 化 编译 器 将 寄存 器 分 配 看 作 是 装 包 问题 。 它 确定 临时 量 的 生命 期 ， 并 根 
据 是 否 是 下 面 几 种 情形 而 将 它们 分 为 4 组 。 

1. 必须 给 它 分 配 特 定 的 寄存 器 ; 

2. 必须 给 它 分 配 某 个 寄存 器 ; 

3. 可 以 给 它 分 配 一 个 寄存 器 或 存储 器 单元 ; 

4. 必须 分 配 到 存储 单元 。 

然后 ， 它 根据 与 分 配 到 特定 寄存 器 或 任意 寄存 器 有 关 的 代价 度量 标准 来 排列 可 分 配 的 临时 
变量 ， 最 后 尝试 一 系列 的 置换 ， 将 临时 变量 装 到 寄存 器 或 存储 器 中 ， 并 尽 可 能 地 优先 装 到 寄存 
器 中 。 由 这 种 方法 派生 出 来 的 一 种 方法 目前 仍 在 DEC 的 Alpha 机 器 的 GEM 编 译 器 中 使 用 。 


163 图 着 色 


16.3.1 图 着 色 寄 存 器 分 配 概述 
早 在 1971 年 John Cocke 就 认识 到 可 将 全 局 寄存 器 分 配 看 作 图 着 色 问题 ， 但 直到 1981 年 才 由 


O “可 细 化 这 种 测算 ， 使 它 能 对 条 件 执行 的 代码 加 权 ， 使 之 与 预期 的 执行 频率 或 测量 到 的 执行 频率 成 正比 。 
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Chaitin 设 计 和 实现 了 这 种 分 配器 。 该 分 配器 用 于 IBM 370 的 一 个 实验 性 的 PL/I 编 译 器 中 ， 之 后 
不 久 Chaitin 和 他 的 一 群 同事 又 将 它 改写 ， 并 用 于 IBM 801 实 验 RISC 系 统 的 PL.8 编 译 器 。 从 此 以 
后 ， 它 的 各 种 版 本 以 及 由 它 派生 出 来 的 各 种 分 配器 就 一 直 被 许多 编译 器 所 使 用 。 它 的 一 种 最 成 
功 的 设计 是 由 Briggs 开 发 的 ， 本 章 余 下 部 分 的 很 多 内 容 正 是 基于 Briggs 的 这 个 设计 (关于 进 一 
步 阅 读 参见 16.7 节 ). 

图 着 色 全 局 寄存 器 分 配 的 基本 思想 可 表示 为 如 下 5 个 步 (尽管 步骤 2 到 步 又 4 都 过 度 简化 了 ): 

1. 在 代码 生成 或 优化 期 间 ( 先 于 寄存 器 分 配 的 任何 遍 )， 或 者 作为 寄存 器 分 配 的 第 一 个 步 
骤 ， 给 可 以 指派 到 寄存 器 的 对 娟 分 配 不 同 的 符号 寄存 器 ， 比 如 s1,s2,…， 需 要 多 少 符号 寄存 
器 存放 所 有 对 象 【〔( 包 括 源 程序 变量 、 临 时 变量 、 大 常数 等 )， 便 分 配 多 少 。 

2. 确定 什么 样 的 对 象 应 当 作 为 分 配 寄 存 器 的 候选 者 (这 可 以 简单 地 就 是 si， 但 在 16.3.3 节 
介绍 了 一 种 更 好 的 选择 )。 

3. 构造 所 谓 的 冲突 图 ， 这 种 图 的 结 点 代表 可 分 配 的 对 象 和 目标 机 的 实际 寄存 器 ， 弧 〈 即 无 向 
边 ) 代表 冲突 ， 其 中 两 个 可 分 配 的 对 象 有 冲突 ， 如 果 它 们 同时 是 活跃 的 ， 一 个 对 象 和 一 个 寄存 器 
冲突 ， 如 果 不 能 或 不 应 当 给 这 个 对 象 分 配 那 个 寄存 器 (例如 ， 一 个 整 操作 数 和 一 个 浮 点 寄存 器 )。 

4. 用 R 种 颜色 给 冲突 图 着 色 ， 使 得 任何 两 个 相 邻 的 结 点 具有 不 相同 的 颜色 ， 其 中 R 是 可 用 
的 寄存 器 个 数 (这 叫做 R 色 着 色 (R-coloring)). 

5. 给 每 一 个 对 象 分 配 颜 色 与 它 相同 的 寄存 器 。 

在 进入 细节 之 前 ， 我 们 先 给 出 一 个 例子 说 明基 本 的 处 理 过 程 。 假 设 我 们 有 如 图 16-1a 所 示 
的 简单 代码 ， 其 中 y 和 w 在 代码 结束 点 是 死去 的 ， 有 三 个 可 用 的 寄存 器 (上 1、z2 和 Y3)， 并 进 一 
步 假设 z 不 能 占据 r1。 我 们 首先 给 这 些 变量 指派 符号 寄存 器 s1,…,s6， 如 图 16-1b 所 示 。 注 意 ， 
其 中 x 在 第 1 和 第 6 行 的 两 次 定 值 《 如 下 一 节 描 述 的) 已 指派 了 不 同 的 符号 寄存 器 。 于 是 有 s1 与 
s2 相 冲突 ， 因 为 s2 是 第 2 行 定 值 的 ， 它 位 于 s1 在 第 一 行 的 定 值 和 s1 在 第 3、4 和 5 行 的 使 用 之 
lal; s4 和 ri 冲突 ， 因 为 z 被 限制 不 能 在 rl 中 。 所 得 到 的 冲突 图 如 图 16-2 所 示 。 它 可 用 三 种 颜色 
(寄存 器 的 个 数 ) 着 色 ， 其 中 s3、s4 和 r3 为 红色 ，s1、s5 和 r1 为 蓝 色 ，s2、s6 和 r2 为 绿色 。 
因此 ， 一 种 合法 的 寄存 器 指派 是 : 将 sl 和 s5 放 在 ri1 中 ，s2 和 s6 放 在 r2 中 ，s3 和 s4 放 在 r3 中 
(如 图 16-1c 所 示 )。 读 者 不 难 做 出 验证 。 


si < 2 ri <- 2 
s2 < 4 r2 «€ 4 
s3 < s1 + s2 T3 «- ri + r2 


s4 & s1 +1 r3 < ri+ i 
sb < si * s82 ri < ri * r2 
s6 <- s4 * 2 r2 <e r3*2 





a) b) c) 


图 16-1 a) 用 于 图 着 色 寄存 器 分 配 的 一 个 简单 例子 ; b) 给 它 指 派 的 符号 寄存 器 ; 
c) 用 三 个 寄存 器 对 它 的 一 种 分 配 ， 假 定 y 和 w 从 这 段 代码 出 来 时 是 死去 的 


YY Sr 


图 16-2 图 16-tb 中 代码 的 冲突 图 
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下 面 ， 我 们 考虑 这 种 方法 的 细节 以 及 它们 与 上 面 的 这 个 框架 有 什么 不 同 。 
16.3.2 顶层 结构 


图 着 色 寄 存 器 分 配 中 使 用 的 全 局 类 型 定义 和 数据 结构 如 图 16-3 所 示 ， 其 中 每 一 种 类 型 定义 
和 数据 结构 在 第 一 次 使 用 时 我 们 再 给 出 其 具体 描述 。 


Symbol = Var U Register U Const 
UdDu = integer x integer 
UdDuChain = (Symbol x UdDu) 一 > set of UdDu 
webrecord - record (symb: Symbol, 
defs: set of UdDu, 
uses: set of UdDu, 
Spill: boolean, 
sreg: Register, 
disp: integer) 
listrecd = record ínints, color, disp: integer, 
Spcost: real, 
adjnds, rmvadj: sequence of integer) 
opdrecd = record (kind: enum {var,regno,const}, 
val: Symbol) 


DefWt, UseWt, CopyWt: real 

nregs, nwebs, BaseReg, Disp :- InitDisp, ArgReg: integer 
RetReg: Register 

Symreg: array [::] of webrecord 

AdjMtx: array [::,::] of boolean 

AdjLsts: array [::] of listrecd 

Stack: sequence of integer 

Real Reg: integer —> integer 





图 16-3 图 着 色 寄存 器 分 配 中 使 用 的 全 局 类 型 定义 和 数据 结构 


这 个 寄存 器 分 配器 的 总 体 结构 如 图 16-4 所 示 ， 分 配 过 程 如 下 : . 

1. 首先 Make_Webs () 合并 相交 的 ( 即 包 含 公共 使 用 的 ) du 链 来 形成 网 ， 网 是 寄存 器 分 配 
的 对 象 。 一 个 网 (web) 是 这 种 du 链 的 最 大 并 集 ， 其 中 对 于 每 一 个 定 值 4 和 使 用 4， 要 么 u 在 4 的 
.du 链 中 ， 要 么 存在 着 d=d,, …, Uo dp, U, =U, ERF EA, u 同时 在 d; 和 di 的 du 链 中 。 
每 一 个 网 指派 一 个 不 同 的 符号 寄存 器 号 。Make_Webs () 也 调用 MIR_to_SymLIR() 将 输入 的 
Block 中 的 MIR 代 码 转 换 为 使 用 符号 寄存 器 的 LIR 人 代码， 并 存储 它们 于 LBlock 中 ; 注意 这 不 
是 实质 性 的 一 一 输入 给 此 寄存 器 分 配器 的 代码 可 以 就 是 LIR 人 代码， 并 且 如 果 我 们 在 寄存 器 分 配 
之 前 做 了 其 他 的 低级 优化 ， 则 它 肯 定 就 已 经 是 LIR 或 其 他 某 种 低级 形式 。 

2. # PH, Build AdjMtx O ERRAR EER. MSE AY EBS et — 1- PÀ 
ATZE, HKirbpAgjMtxiLjldÉtrue, 4AR4E (实际 或 符号 ) 寄存 器 i 和 (Ki > 
j) 之 间 存 在 一 条 绝 ; 否则 为 false。 

3. 接 下 来 ， 例 程 Coalesce_Regs O 使 用 邻接 矩阵 来 合并 这 些 寄 存 器 ， 即 寻找 使 得 si 和 sj 
不 相互 冲突 的 复写 指令 si~ sj， 然 后 用 si 的 使 用 替换 sj 的 使 用 ， 从 而 从 代码 中 删除 jy。 如 果 执 行 
了 任何 合并 ， 我 们 从 上 面 第 一 步 从 头 开 始 ; 否则 继续 下 一 步 。 

4. 接 下 来 ，Build_adjLsts () 构造 这 个 冲突 图 的 邻接 表 表 示 ， 它 是 一 个 Listrecd 记 录 
类 型 的 数组 AdajLsts [1. .nwebs] ， 每 个 符号 寄存 器 有 一 条 记录 。 这 些 记录 由 6 个 分 量 组 成 : 
color. disp. spcost,. nints, adjndsfürmvadj; 它们 分 别 指出 一 个 结 点 是 否 已 经 着 
色 和 是 什么 颜色 、 在 将 它 游 出 时 使 用 的 位 移 (如 果 需 要 的 话 )、 与 它 相 过 的 溢出 代价 、 图 中 留 





ooo RÉP 


王 的 相 邻 结 点 个 数 、 图 中 留 下 的 相 邻 结 点 的 表 ， 以 及 已 从 图 中 删除 的 相 邻 结 点 的 表 。 

5. # FHCompute_Spill_costs () 对 每 一 个 符号 寄存 器 计算 将 它 溢出 到 存储 器 并 恢复 
它 到 寄存 器 的 代价 。 如 我 们 下 面 将 看 到 的 ， 有 些 类 型 的 寄存 器 内 容 (MARR) 可 以 有 不 同 的 
处 理 ， 即 用 一 种 开销 较 小 但 仍 能 达到 溢出 和 恢复 效果 的 方式 。 

6. 然后 Prune_Graph () 使 用 两 种 方法 ， 分别 叫 做 度 < 了 规则 和 乐观 启发 式 ， 从 冲突 图 的 
邻接 表 表 示 中 删除 结 点 (以 及 它们 相连 的 纯 )。 

7. 之 后 Assign_Regs () 使 用 邻接 表 来 尝试 给 结 点 指派 颜色 ， 使 得 两 个 相 邻 的 结 点 不 
会 有 相同 的 颜色 。 如 果 它 成 功 了 ， 则 调用 Medaify_coae() 用 已 指派 了 具有 相同 颜色 的 实 
际 寄存 器 替代 符号 寄存 器 的 每 一 个 使 用 ， 并 终止 此 分 配 过 程 。 如 果 寄 存 器 指派 失败 ， 则 继续 
下 一 步 。 

8. fifiGen Spill Code () 为 需要 溢出 到 存储 器 的 符号 寄存 器 指派 栈 位 置 ， 然 后 插入 它 
们 的 溢出 和 恢复 代码 (或 对 于 前 面 提 到 的 大 常数 情形 用 另 一 种 方法 ， 即 用 较 小 的 代价 重新 构造 
一 个 值 ， 而 不 是 保存 和 恢复 它 )， 然 后 控制 返回 到 前 面 第 一 步 。 


procedure Allocate Registers(DuChains,nblocks,ninsts,Block, 
LBlock,Succ,Pred) 
DuChains: in set of UdDuChain 
nblocks: in integer 
ninsts: inout array [1:-nblocks] of integer 
Block: in array [i:-nblocks] of array of MIRInst 
LBlock: out array [i::nblocks] of array [--] of LIRInst 
Succ, Pred: inout integer —> set of integer 
begin 
Success, coalesce: boolean 
repeat 
repeat 
Make Webs(DuChains,nblocks,ninsts,Block,LBlock) 
Build AdjMtx( ) 
coalesce :- Coalesce -Regs (nblocks, ninsts,LBlock,Succ,Pred) 
until !coalesce 
Build AdjLsts( ) 
Compute.Spill Costs(nblocks,ninsts,LBlock) 
Prune.Graph( ) 
success := Assign Regs( ) 
if success then . 
Modify. Code(nblocks,ninsts,LBlock) 
else 
Gen. Spill Code(nblocks,ninsts,LBlock) 





























fi 
until success 
end || Allocate Registers 


图 16-4 图 着 色 寄 存 器 分 配 算法 的 顶层 结构 


16.3.3 网 ， 可 分 配对 象 

我 们 遇 到 的 第 一 个 问题 是 确定 什么 样 的 对 象 应 当 作为 寄存 器 分 配 的 候选 者 。 与 简单 地 将 那 
些 可 放 入 寄存 器 的 变量 作为 可 分 配对 象 不 同 ， 这 里 的 候选 者 是 那些 原来 叫做 名 字 (names)， 但 
现在 叫做 网 的 对 象 。 网 (web ) 的 定义 与 16.3.2 节 步 又 1 中 的 定义 一 样 。 例 如 ， 在 图 16-1a 的 代码 
中 ，x 在 第 1 行 的 定 值 和 它 在 第 3、4 和 5 行 的 使 用 属于 同一 个 网 ， 因 为 这 个 定 值 到 达 了 这 里 列 出 
的 所 有 使 用 ， 但 是 x 在 第 6 行 的 定 值 属于 不 同 的 网 。 
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图 16-5 网 的 例子 ， 最 复杂 的 网 用 阴影 标 出 


至 于 另 一 个 例子 ， 考 虑 图 16-5 中 的 一 段 抽 象 流 图 ; 其 中 我 们 只 给 出 了 两 个 变量 x 和 y 的 定 值 
和 使 用 ， 并 且 假 定 没有 循环 包围 这 段 流 图 。 它 存在 着 4 个 网 。 一 个 网 由 基本 块 B2 中 x 的 定 值 的 
du 链 ， 以 及 B3 中 x 的 定 值 的 du 链 的 并 集 组 成 ， 基 本 块 B2 中 x 定 值 的 du 链 在 图 中 用 阴影 指出 ， 它 
包括 x 在 B4 和 B5 中 的 使 用 ，B3 中 x 定 值 的 du 链 也 带 有 阴影 ， 它 包括 x 在 B5 中 的 使 用 。 因 为 x 的 
这 两 个 du 链 相 交 于 B5 中 的 x 的 使 用 ， 故 它们 合并 构成 了 一 个 网 。 基 本 块 B5 中 的 x 的 定 值 和 它 在 
基本 块 B6 中 的 使 用 构成 了 另 一 个 独立 的 网 。 概 括 起 来 ， 这 4 个 网 如 下 : 


B2 中 x 的 定 值 ， 
B5 中 x 的 定 值 ， 
B2 中 y 的 定 值 ， 
B1 中 y 的 定 值 ， 


成 员 
B3 中 x 的 定 值 ，B4 中 x 的 使 用 ，B5 中 x 的 使 用 
B6 中 x 的 使 用 . 
B4 中 y 的 使 用 
B3 中 y 的 使 用 


图 16-6 指 出 了 它们 之 间 的 冲突 。 一 般 为 了 确定 一 个 过 程 的 网 ， 我 们 首先 通过 计算 到 达 定 值 构 造 它 
的 du 链 ， 然 后 计算 相交 du 链 的 最 大 并 集 (如果 两 个 du 链 有 公共 的 (3) (ei) 
使 用 ， 则 这 两 个 du 链 相 交 )。 
用 网 而 不 是 用 变量 作为 寄存 器 分 配 的 候选 ， 其 好 处 源 于 这 一 
事实 : 在 一 个 例 程 中 相同 的 变量 名 可 能 重复 地 用 于 不 同 的 目的 ， (2) (w4) 
这 种 情形 的 典型 例子 是 将 i 用 作 循环 索引 。 许 多 程序 设计 员 总 将 
它 作 为 循环 索引 变量 的 首选 ， 并 且 用 于 同一 个 例 程 中 的 多 个 循 
环 。 如 果 要 求 i 的 这 些 不 同 用 途 都 使 用 相同 的 寄存 器 ， 则 这 种 分 配 就 太 受 限制 。 此 外 ， 当 然 也 
可 能 有 那 种 变量 名 的 多 次 使 用 ， 程 序 员 认 为 其 用 途 是 相同 的 ， 但 实际 上 对 寄存 器 分 配 而 言 是 不 
同 的 ， 因 为 它们 的 网 不 同 。 使 用 网 也 避免 了 映射 变量 到 符号 寄存 器 的 需要 : 因为 网 等 价 于 符号 
寄存 器 。 注 意 ， 对 于 RISC 系 统 ， 这 使 得 寄存 器 分 配 的 候选 除了 可 以 包括 变量 外 ， 还 可 包括 大 
常数 ， 大 常数 必须 装 入 或 构造 到 一 个 寄存 器 中 ， 然 后 这 个 寄存 器 成 为 网 中 的 一 个 元 素 。 
图 16-7 给 出 的 ICAN 例 程 Make_webs () 在 已 知 过 程 的 du 链 的 情况 下 ， 构 造 此 过 程 的 网 。 它 
使 用 了 三 种 爹 局 数据 类 型 ,第 一 种 类 型 是 UaDu， 它 的 成 员 由 偶 对 <i, >, pH ARS, 
/是 该 基本 块 中 指令 的 编号 。 


图 16-6 图 16-5 中 网 之 间 的 冲突 
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procedure Make Webs(DuChains,nblocks,ninsts,Block,LBlock) 
DuChains: in set of UdDuChain 
nblocks: in integer 
ninsts: in array [1--nblocks] of integer 
Block: in array [1:-nblocks] of array [::] of MIRInst 
LBlock: out array {1--nblocks] of array [--] of LIRInst 


begin ` 
Webs := Ø, Tmp1, Tmp2: set of webrecord 
webi, web2: webrecord 
sdu: Symbol x UdDu — set of UdDu 
i, oldnwebs: integer 
nwebs :- nregs 
for each sdu € DuChains do 
nwebs += 1 
Webs u= [(symb:sdu81,defs:(sdu02) ,uses:sdue3, 
spill:false,sreg:nil,disp:nil>} 
od 
repeat 
|! combine du-chains for the same symbol and that 
|| have a use in common to make webs 
oldnwebs :- nwebs 
Tmp1 := Webs 
while Tmpi * Ø do 
webl := eTmpl; Tmpi -= {web1} 
Tmp2 := Tmpi 
while Tmp2 * Ø do 
web2 := eTmp2; Tmp2 -= {web2} 
if webi.symb = web2.symb & 
(webi.uses ^ web2.uses) * Ø then 
webi.defs U= web2.defs ` 
webi.uses U- web2.uses 
Webs -= (web2) 
nwebs -- 1 
fi 
od 
od 
until oldnwebs - nwebs 
for i :- 1 to nregs do 
Symreg[i] := {<symb:Int_to_Reg(i) ,defs:nil, 
uses:nil,spill:false,sreg:nil,disp:nil)) 
od 
|| assign symbolic register numbers to webs 
i := nregs 
for each webi € Webs do 
i += 1 
Symreg[i] := web1 
webi.sreg := i 
od 
MIR_to_SymLIR(nblocks ,ninsts , Block ,LBlock) 
end || Make Webs 


图 16-7 确定 图 着 色 寄存 器 分 配 所 使 用 的 网 的 例 程 Make_Webs () 


第 二 种 类 型 是 UdDuCchain= (Symbol x UdDu) Set of UdDu, 它 表示 du 链 。 如 2.7.9 布 
所 述 ， 带 有 两 个 参数 的 ICAN 函 数 等 价 于 一 个 由 三 元 组 组 成 的 集合 ， 该 三 元 组 的 类 型 是 它 的 第 
一 个 参数 、 第 二 个 参数 和 值 域 的 类 型 的 乘积 。 我 们 在 这 里 使 用 这 种 等 价 的 表示 一 一 即 记 类 型 
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UdDuChin 的 成 员 sdu 为 形 如 <s, p, Q> 的 三 元 组 的 集合 (其 中 s 是 符号 ，p 是 基本 块 位 置 偶 对 ，Q@ 
是 基本 块 位 置 偶 对 集合 )， 而 不 是 sdu(s, p)=Q 的 形式 。 

第 三 种 类 型 Webrecozra 描 述 一 个 网 ， 它 由 一 个 符号 名 、 该 符号 的 定 值 集合 、 同 一 符号 的 
使 用 集合 、 一 个 指出 它 是 否 为 溢出 候选 者 的 布尔 量 、 一 个 符号 寄存 器 或 ni1 ， 以 及 一 个 位 移 或 
nil 组 成 。 

我 们 假设 du 链表 示 为 由 一 个 符号 、 该 符号 的 定 值 , 以 及 同一 符号 的 使 用 集合 组 成 的 三 元 组 ， 
并 假设 每 一 个 定 值 和 使 用 都 是 由 基本 块 号 和 ( 块 内 的 ) 指令 编号 组 成 的 偶 对 来 表示 的 ， 即 用 图 
16-3 中 定义 的 编译 器 专用 的 类 型 UdDu 。 

全 局 变量 nregs 和 nwebs 的 值 分 别 是 可 用 于 分 配 的 真实 寄存 器 个 数 和 网 的 个 数 ， 其 中 假定 
真实 寄存 器 的 编号 从 1 到 nregs ， 网 从 真实 寄存 器 之 后 开始 计数 。 

Make Webs () 首先 用 du 链 来 初始 化 网 ， 然 后 扫描 每 一 对 网 ， 检 查 它 们 是 否 是 相同 的 符号 
且 相 交 ， 如 果 是 则 合并 它们 。 在 处 理 过 程 中 ， 它 对 网 计数 ， 最 后 给 这 些 网 指派 符号 寄存 器 名 ， 
调用 MTR_to_symLIR () 将 MIR 代 码 转换 成 LIR 代 码 ?， 并 用 符号 寄存 器 替换 代码 中 的 变量 。 

Make, Webs () 用 到 了 例 程 Int_to_Reg (i) ， 它 返回 整数 ;对 应 的 真实 寄存 器 或 符号 寄存 
器 名 。 如 果 i< nregs， 它 返回 第 i 个 真实 寄存 器 的 名 字 ， 如 果 i>nregs， 它 返回 
Symreg [i] . symb 的 值 ， 这 里 没有 用 到 这 种 情形 ,但 在 图 16-9 的 MIR_to_SymLIR 的 代码 中 使 
用 了 它 。 

注意 ， 如 果 这 个 寄存 器 分 配 程序 的 输入 是 SSA 形 式 ， 则 确定 网 是 一 件 容易 的 事 : 每 一 个 
SSA 形 式 的 变量 是 一 个 du 链 ， 因 为 每 一 个 SSA 变 量 只 有 一 个 定 值 点 。 例 如 ， 在 图 16-8 中 ， 基 本 
块 Bl 中 x; 的 定 值 ，B2 中 x: 的 定 值 和 使 用 ，B4 中 xs 的 定 值 、x; 和 xs: 的 使 用 ， 以 及 B5 中 xs 和 xs: 的 
使 用 一 起 构成 了 一 个 网 。 





图 16-8 每 一 个 SSA 形 式 的 变量 是 一 个 du 链 的 链 头 


图 16-9 中 的 ICAN 例 程 MIR_to_SymLIR() 将 MIR 形 式 的 过 程 转换 成 已 用 符号 寄存 器 替代 了 变量 
的 LIR 代 码 。 这 个 例 程 使 用 了 描述 指令 操作 数 的 全 局 类 型 cpdreca， 此 类 型 由 一 个 kind 和 一 个 值 组 
成 ， 其 中 kind 可 以 是 var、regno 或 const， 值 可 以 是 标识 符 、 寄 存 器 或 常数 。MIR_Eo_SymLIR () 
使 用 了 全 局 整 常数 ArgReg 和 值 为 寄存 器 的 全 局 常数 RetReg， 它 们 分 别 包含 此 调用 的 第 一 个 参数 寄 
存 器 的 编号 和 用 于 保存 返回 地 址 的 寄存 器 的 名 字 。 代 码 中 还 使 用 了 如 下 三 个 例 程 : 

1. Find Symreg (s, i, j) 返回 基本 块 中 指令 中 的 符号 ;所 在 网 的 索引 (或 等 价 地 ， 符 号 寄 
存 器 )。 

2. Convert, Opná (opnd) 以 MIR 操 作 数 opnd 为 参数 ， 返 回 对 应 的 LIR 操 作 数 〈 一 个 常数 或 
符号 寄存 器 ， 其 中 符号 寄存 器 名 字 由 字母 s 后 接 一 个 大 于 等 于 nregs+1 的 整数 组 成 )。 

3. Int_to_Reg(i) 将 整 型 实 参 i 转换 为 对 应 的 真实 寄存 器 或 如 前 所 述 的 符号 寄存 器 的 名 字 。 


O ”这 不 是 实质 性 的 ， 输 入 给 此 寄存 器 分 配 程序 的 代码 可 能 已 经 是 LIR 代 码 。 


490 
i 
491 
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procedure MIR to SynLIR(nblocks,ninsts,Block,LBlock) 
nblocks: in integer 
ninsts: inout array [1--nblocks] of integer 
Block: in array [i::nblocks] of array [--] of MIRInst 
LBlock: out array [{1--nblocks] of array [--] of LIRInst 
begin 
i, j, k, reg: integer 
inst: MIRInst 
opndi, opnd2, opnd: opdrecd 
for i := 1 to nblocks do 
j := 1 
while j < ninsts[i] do 
inst := Blockf[i] [j] 
case inst of 
binasgn: opndl := Convert. Üpnd(inst.opd1) 
opnd2 := Convert Opnd(inst.opd2) 
LBlockfi][j] := (kind:regbin,left:Find Symreg(inst.left,i,j), 
opr:inst.opr,opdi:opndi,opd2:opnd2? 
opnd := Convert Opnd(inst.opd) 
LBlock[i][j] := (kind:regun,left:Find Symreg(inst.left,i,j), 
opr:inst.opr,opd:opnd? 
opnd := Convert Üpnd(inst.opd) 
LBlock[i][j] := (kind:regval, 
left:Find Symreg(inst.left,i,j),opd:opnd? 


LBlock[i][jl := inst 

opndi := Convert Üpnd(inst.opd1) 

opnd2 := Convert. Üpnd(inst.opd2) 

LBlock[i] [j] := (kind:regbinif,opr:inst.opr, 
opdi: opndi , opd2: opnd2,1bl: inst .1b1> 


reg := ArgReg . 
for k := 1 to linst.args| do 
^ LBlock[i][j*k-1] := «kind:regval, 
left:Int to.Reg(reg), 
opd:Convert -Opnd (inst. argstk)> 
reg += 1 
od 
LBlock[i][j*k] := <kind:callreg,proc:inst.proc, 
rreg:RetReg> 
jtk 


esac 
j + 
od 
od 
end |} MIR_to_SymLIR 


图 16-9 将 MIR 形 式 的 过 程 转换 成 已 用 符号 寄存 器 替代 了 变量 的 LR 代码 的 ICAN 例 程 


16.3.4 冲突 图 


一 旦 计算 好 了 网 ， 接 下 来 的 步骤 是 建立 冲突 图 。 每 一 个 机 器 寄存 器 和 每 一 个 网 (= 符号 寄 
FE) 在 冲突 图 中 都 有 一 个 结 点 。 

如 果 所 有 的 寄存 器 都 是 同一 类 寄存 器 并 且 没 有 特殊 的 使 用 约定 ， 即 任何 量 都 可 以 存放 在 任 
何 寄存 器 中 ， 则 不 需要 在 冲突 图 中 包括 这 些 寄存 器 的 结 点 。 我 们 只 要 简单 地 找 出 这 个 图 的 R 色 着 
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色 ， 并 指派 不 同 的 颜色 到 不 同 的 寄存 器 即 可 。 但 是 一 般 不 是 这 种 情形 ， 因 为 至 少 需要 专门 为 调 
用 约定 和 栈 结构 保留 若干 寄存 器 。 

类 似 地 ， 目 标 机 也 可 能 有 两 种 以 上 指定 了 不 同 功能 的 寄存 器 集合 例如， 整数 寄存 器 和 学 
点 寄存 器 )。 对 这 两 种 寄存 器 集合 的 分 配 问 题 可 以 分 别 进行 处 理 ， 并 产生 较 小 且 限 制 也 较 少 的 
冲突 图 ， 但 是 一 般 并 不 这 样 做 , .因为 从 一 片 存储 单元 移动 一 块 数据 至 另 一 片 存储 单元 通常 可 以 
使 用 两 种 寄存 器 集合 中 的 任意 一 种 (假设 体系 结构 没有 存储 器 到 存储 器 的 传送 指令 ) 一 一 因此 
采用 分 开 的 两 个 图 反而 会 不 必要 地 限制 了 这 种 分 配 处 理 。 

在 前 面 的 简 述 中 我 们 曾 指出 ， 如 果 两 个 结 点 曾经 是 同时 活跃 的 ， 则 它们 之 间 有 一 条 弧 。 但 是 
这 会 导致 图 中 弧 的 数目 比 我 们 实际 需要 的 要 多 得 多 。 其 实 ry | 
只 要 当 两 个 结 点 中 有 一 个 在 另 一 个 的 定 值 点 是 活路 的， 这 
两 个 结 点 之 间 才 有 一 条 弧 ， 这 就 足够 了 。 原 来 定义 中 的 那 
些 多 余 的 弧 可 以 去 掉 ， 从 而 减少 所 需要 的 颜色 数目 ， 或 换 
言 之 , 减少 使 R 色 着 色 图 可 行 而 引入 的 代码 量 。 从 一 个 结 
点 引 向 其 他 结 点 的 弧 的 数目 叫做 此 结 点 的 度 (degree)。 po 

Chaitin 等 人 [chaA81] 给 出 了 一 个 过 程 的 例子 ， 采 用 
“同时 活跃 ”的 定义 ， 这 个 过 程 的 冲突 图 需要 21 种 颜色 ， 
而 采用 “在 定 值 点 活跃 ”的 定义 ， 其 冲突 图 只 需要 11 种 
颜色 。 图 16-10 对 那个 例子 作 了 适当 修改 。 在 基本 块 B4 
的 入 口 ，al，…，an、bl，…，bn 和 left 都 是 活跃 的 。 use al use bl 
其 冲突 图 有 2m+1 个 结 点 。 如 果 我 们 使 用 前 一 种 冲突 图 的 uolo. . 
定义 , 它 有 n(2n+1) 条 弧 连 接 每 一 个 结 点 到 所 有 其 他 结 点 ， 
并 且 需 要 2n+1 种 颜色 。 用 后 一 种 定义 ，ai 与 bi 完全 不 相 
干 ， 因 此 只 有 n(n+ 了 有) 条 弧 ， 并 只 需要 n+1 种 颜色 。 

冲突 图 除了 表示 同时 活跃 的 变量 引起 的 冲突 之 外 ， 
也 足以 表示 其 他 类 型 的 冲突 。 例 如 ， 在 POWER 体系 结 图 16-10 冲突 的 两 种 定义 产生 不 同 
构 中 ， 当 通用 寄存 器 z0 作 为 地 址 计算 中 的 基地 址 寄存 器 冲突 图 的 流 图 例子 
时 ， 可 用 来 保存 其 值 为 0 的 常数 。 这 一 事实 可 通过 使 代表 基地 址 寄存 器 的 所 有 网 与 0 相 冲突 来 
表示 。 类 似 地 也 可 使 得 由 语言 实现 的 调用 约定 所 改变 的 寄存 器 与 跨 调用 活跃 的 所 有 网 相 冲突 。 
16.3.5 冲突 图 的 表示 


在 讲述 如 何 建立 冲突 图 之 前 ， 我 们 先 考虑 怎样 表示 它 。 冲 突 图 可 能 相当 大 ， 所 以 有 效 利用 
空间 是 我 们 关心 的 问题 ; 但 实践 经 验 也 表明 访问 时 间 同 样 重要 ,因此 仔细 地 考虑 如 何 有 效 地 表 
示 它 能 得 到 很 大 的 回报 。 如 我 们 将 看 到 的 ， 我 们 需要 能 够 快速 地 构造 冲突 图 ， 判 定 两 个 结 点 是 
否 相 连 ， 找 出 有 多 少 个 结 点 连接 到 一 个 给 定 结 点 ， 以 及 找 出 连接 到 一 个 已 知 结 点 的 所 有 结 点 。 
为 此 ， 我 们 推荐 使 用 传统 的 表示 ， 即 邻接 矩阵 和 邻接 表 的 组 合 S 。 

邻接 矩阵 AdajMtx[2. .nwebs，,，1. .nwebs-1] 是 一 个 下 三 角 和 矩 阵 ， 其 中 AdjMtx [max (i, 
站 ，min (i, 站 ] =true， 如 果 第 i 个 寄存 器 (真实 的 或 符号 的 ) 和 第 /个 寄存 器 相 邻 ; 否则 为 
false|。 这 种 和 矩阵 表示 能 很 快 地 创 建 冲突 图 ， 也 能 很 快 地 确定 出 两 个 结 点 是 否 相 邻 。 例 如 ， 


B3 





B6 


O 在 B.1 节 讨论 了 一 种 可 作为 候选 的 、 基于 Briggs 和 Torczon [BriT93] 描 述 的 稀疏 数据 结构 的 表示 。 但 是 ， 与 传 
统 方法 的 比较 实验 表明 ， 它 的 空间 浪费 较 大 且 相 对 较 慢 。 
© 记 住 ， 真 实 寄存 器 的 编号 是 从 1 到 nregs， 符 号 寄存 器 是 从 nregs+1 到 nwebs。 
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图 16-2 冲 突 图 的 邻接 矩阵 如 图 16-11 所 示 ， 共 中 t 代 表 true，fE 代 表 false。 
建立 冲突 图 邻接 矩阵 表示 的 I1CAN 例 程 
Build_AdjMtx() 如 图 16-12 所 示 ， 它 用 函数 r2 


ri r2 r3 si s2 s3 s4 85 


t 

Live At (web, symb, def) 来 判定 web 中 是 否 存在 在 符号 r3 |t t 
symb ZE defi SERRE EE, |RInterfere(s Jiii, 
r) 来 确定 由 符号 s 表 示 的 这 个 网 是 否 与 真实 寄存 器 r 相 神 突 。 s3 |f ff tt 

邻接 表 的 表示 是 一 个 数组 ， 该 数组 元 素 的 类 型 是 M ii ii. 
1istrecd， 这 是 一 个 含 6 个 分 量 的 记录 类 型 。 对 于 数组 元 so Lt £ £ £ £ £ £ f 
素 AdajLsts [i] ， 这 6 个 分 量 如 下 : 图 16-11 图 16-2 冲 突 图 的 邻接 算 阵 ， 

1. color 是 一 个 整数 ， 它 的 值 是 为 结 点 选择 的 颜色 ; 其 中 t 代 表 true，f 代 表 false 


初 值 为 ~ %。 


procedure Build AdjMtx( ) 
begin 
i, j: integer 
def: UdDu 
for i := 2 to nwebs do 
for j := 1 to i-i do 
AdjMtx[i,j] := false 
od 
od 
for i :- 2 to nregs do 
for j := 1 to i-1 do 
AdjMtx[i,j] := true 
od 
od 


for i := nregs+1 to nwebs do 
for j := 1 to nregs do 
if Interfere(Symreg[i],j) then 
. AdjMtx[i,j] := true 
fi l 


od 
for j := nregs+1 to i-1 do 
for each def € Symreg[i].defs 
(Live At(Symreg[j],Symreg[i].symb,def)) do 
AdjMtx[i,j] := true 
od 
od 
od 
end |] Build AdjMtx 





图 16-12 为 图 着 色 寄存 器 分 配 建 立 冲突 图 邻接 矩阵 表示 的 ICAN 代 码 


2. daisp 是 一 个 位 移 ， 它 是 地 址 的 一 部 分 ， 当 需要 时 ， 指 派 到 位 置 ;的 符号 寄存 器 将 溢出 到 
此 位 置 ， 其 初 值 为 ~ v. 

3. spcost 是 结 点 滋 出 的 代价 ; 它 的 初 值 对 于 符号 寄存 器 是 0 . 0， 对 于 真实 寄存 器 是 ©, 

4. nintsadjndsik PAR PR. 

5.adjnds 是 当前 与 真实 寄存 器 或 符号 寄存 器 站 冲突 的 那些 真实 寄存 器 和 符号 寄存 器 的 一 张 表 。 

6. rmvadj 是 与 真实 寄存 器 或 符号 寄存 器 ; 相 冲突 ， 并 且 已 在 修剪 过 程 中 被 删除 的 真实 寄存 . 
器 和 符号 寄存 器 的 一 张 表 。 

对 于 确定 一 个 特定 结 点 有 多 少 个 相 邻 的 结 点 ， 以 及 它们 是 杏 些 结 点 ， 这 种 表示 特别 有 用 。 
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图 16-2 冲 突 图 的 邻接 表 如 图 16-13 所 示 。 


color disp spcost nints 1 2 3 


EE 
2 [= [jl] 

s [eee e 
ot [= |L= ][o-0] [8] 
2 L-=|[=][oo][s] 
s [>] [e] ee] [2] 
s [7 J[- J[o9] [4] 

EXE 


a 
a 
Bü 


图 16-13 ”图 16-2 冲 突 图 的 初始 邻接 表 


图 16-14 给 出 了 建立 冲突 图 邻接 表 表 示 的 ICAN 人 代码。 邻接 矩阵 表示 主要 用 于 图 着 色 预 处 理 
期 间 ， 即 寄存 器 合并 (参见 下 一 节 ) 过 程 中 ; 邻接 表 主 要 用 于 实际 的 着 色 处 理 过 程 。 因 此 ,我 
们 首先 建立 邻接 矩阵， 在 寄存 器 合并 期 间 对 它 进行 修改 ， 然 后 如 16.3.2 节 所 讨论 的 那样 ， 从 得 
到 的 结果 来 建立 邻接 表 。 


procedure Build AdjLsts( ) 
begin 
i, j: integer 
for i :- 1 to nregs do 
AdjLsts[i]. 
AdjLsts [i]. 
AdjLsts[i].di 
AdjLsts[i]. 
AdjLsts [i] .adj := [] 
AdjLsts[il. j := U 
od 


for i := nregs+1 to nwebs do 
AdjLsts[i].nints := 0 
AdjLsts[il.color := -o 
AdjLsts[il.disp := -e 


AdjLsts [i] .spcost := 0.0 
AdjLsts[i] .adjnds := {] 
AdjLsts[i].rmvadj := [] 


i := 2 to nwebs do 
:= 1 to nwebs - 1 do 
if AdjMtx[i,j] then 
AdjLsts[i]l.adjnds e- [j] 
AdjLsts[jl.adjnds e- [i] 
AdjLsts[i].nints += 1 
| AdjLsts[jl.nints += 1 
fi 
od 
od 
end || Build AdjLsts 





图 16-14 ”建立 冲突 图 邻接 表 表 示 的 ICAN 代 码 
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16.3.6 寄存 器 合并 


建立 好 邻接 矩阵 后 ， 我 们 对 它 施 加 一 种 转换 ， 称 为 寄存 器 合并 。 寄 存 器 合并 〈register 
496| coalescing) 或 归 类 (subsumption) 是 复写 传播 的 一 个 变 体 ， 它 删除 那些 从 一 个 寄存 器 到 另 一 
497 个 寄存 器 的 复制 。 它 搜索 中 间 代 码 中 诸如 sj ~ si 的 寄存 器 复制 指令 ， 其 中 si 和 sj 不 相互 冲突 9， 
并 且 在 这 条 复制 赋值 指令 到 例 程 结 束 之 闻 没有 对 si 或 gj 两 者 的 存储 指令 。 一 旦 找到 这 样 的 一 条 
指令 ， 寄 存 器 合并 便 搜索 那些 写 si 的 指令 ， 修 改 这 些 指令 使 它们 的 结果 存放 在 sj 中 而 不 是 si 中 ， 
并 删除 这 条 复写 指令 ， 同 时 修改 冲突 图 使 和 ?7 合并 为 单个 结 点 ， 并 使 该 结 点 与 这 两 个 结 点 原 
来 相 冲 突 的 所 有 结 点 相 冲突 。 对 图 的 修改 可 以 以 增 量 方式 进行 。 注 意 ， 在 一 si 的 复写 操作 点 ， 
如 果 有 在 此 点 活跃 的 另 一 个 符号 害 存 器 %F， 我 们 曾 使 它 与 si 相 冲 突 ， 现 在 它 已 变 为 不 必要 的 ， 
因此 这 些 冲 突 都 可 以 删除 。 
图 16-15 所 示 的 ICAN 例 程 Coalesce_Regs ( ) 执行 寄存 器 合并 ， 它 使 用 了 下 面 三 个 例 程 : 
1. Reg_to_Int (r) 将 它 的 符号 或 真实 寄存 器 参数 "转换 为 整数 ;， 使 得 Symreg (i) 代表 r。 
2.delete inst(i, j, ninsts, Block, Succ, Pred) 从 基本 块 测 除 指令 / (参见 图 4-15) 
3. Non. Store(LBlock, k, l, i, 站 返回 true，、 若 在 LBlock [i] [中 的 赋值 sk sl! 到 
包含 此 复写 赋值 的 例 程 的 末尾 之 间 ， 既 不 存在 对 sk 的 存储 ， 也 不 存在 对 s! 的 存储 。 
在 寄存 器 合并 之 后 ， 如 图 16-14 所 示 我 们 构造 冲突 图 的 邻接 表 表 示 。 


procedure Coalesce Regs(nblocks,ninsts,LBlock,Succ,Pred) 
nblocks: inout integer 
ninsts: inout array [1--nblocks] of integer 
LBlock: inout array [1::nblocks] of array [::] of LIRInst 
Succ, Pred: inout integer 一 > set of integer 
begin 
i, j, k, 1, p, q: integer 
for i := 1 to nblocks do 
for j := 1 to ninsts[i] do 
|| if this instruction is a’ coalescable copy, adjust 
|| assignments to its source to assign to its target instead 
if LBlock[i][jl.kind = regval then 
k := Reg. to Int(LBlock[i][j].1eft) 
1 := Reg to. Int(LBlock[i] [j] .opd.val) 
if !AdjMtx[max(k,1),min(k,1)] V Non Store(LBlock,k,1,i,j) then 
for p := 1 to nblocks do 
for q := 1 to ninsts[p] do 
if LIR Has Left (LBlock [p] [q]) 
& LBlock[p] [q].left = LBlock[i][jl.opd.val then 
LBlock[pl(ql.left := LBlock[il(jl.left 
fi 





























od 
od 
|| remove the copy instruction and combine Symregs 
delete inst(i,j,ninsts,LBlock,Succ,Pred) 
Symreg[k].defs u=. Symreg(1].defs 
Symreg[k].uses v= Symreg[1] . uses 
|| adjust adjacency matrix to reflect removal of the copy 


图 16-15 寄存 器 合并 算法 


8 注意 ， 冲 突 图 中 包含 了 做 这 种 转换 所 需要 的 数据 流 信息 ， 因此 我 们 可 以 避免 做 活跃 变量 分 析 。 另 外 还 要 注意 “ 
5 和 si 都 可 能 是 真实 寄存 器 或 符号 寄存 器 。 
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Symreg[1] :- Symreg[nwebs] 
for p := 1 to nwebs do 
if AdjMtx[max(p,1),min(p,1)] then 
AdjMtx[max(p,k),min(p,k)] := true 
fi 
AdjMtx[max(p,1),min(p,1)] := AdjMtx[nwebs,pl 





end || Coalesce Regs 
图 16-15 (4%) 


Chaitin 和 其 他 人 已 注意 到 这 种 合并 是 一 种 强 有 力 的 转换 。 它 可 以 做 的 事情 有 以 下 一 些 : 

1. 这 种 合并 简化 了 编译 过 程 的 若干 步骤 ， 如 删除 因 转换 SSA 形 式 回 到 线性 中 间 代 码 而 引入 
的 不 必要 的 复制 代码 。 

2. 它 可 用 来 保证 在 调用 一 个 过 程 之 前 将 参数 值 传送 到 〈 或 计算 于 ) 适当 的 寄存 器 中 。 在 被 
调用 端 ， 它 能 够 将 传送 在 寄存 器 中 的 参数 迁移 到 适当 的 工作 寄存 器 。 

3. 它 能 实现 那 种 要 求 源 寄存 器 和 目标 寄存 器 的 操作 数 和 结果 在 适当 地 方 的 机 器 指令 。 

4. 它 能 使 得 要 求 其 结果 在 一 个 寄存 器 中 ,并 且 一 个 操作 数 也 必须 在 此 寄存 器 的 两 地 址 指令 
(如 CISC 中 存在 的 那 种 指令 ) 能 按 需 求 而 被 处 理 。 

5. 它 能 使 我 们 保证 那 种 要 求 其 操作 数 或 结果 使 用 一 对 寄存 器 的 指令 能 指派 到 这 种 寄存 器 偶 对 。 

我 们 在 图 16-15 的 算法 中 没有 考虑 这 些 问 题 ， 但 在 本 章 结束 有 相关 的 练习 。 


16.3.7 计算 溢出 代价 


分 配 过 程 的 下 一 个 步 又 是 在 不 能 把 所 有 符号 寄存 器 直接 分 配 到 真实 寄存 器 的 情况 下 ,计算 ， 


将 寄存 器 的 内 容 谥 出 和 重新 恢复 它 的 代价 。 溢 出 的 潜在 作用 是 将 一 个 网 分 割 成 两 个 以 上 的 网 ， 
因而 可 能 减少 图 中 的 冲突 。 例 如 ， 在 图 16-5 中 ， 通 过 在 基本 块 B2 的 末尾 引入 一 条 存储 y 的 寄存 器 
的 指令 ， 并 在 B4 的 开始 引入 一 条 从 存储 它 的 位 置 取 y 的 指令 ， 我 们 可 以 将 包含 了 基本 块 B2 中 y 的 
定 值 和 B4 中 它 的 使 用 的 一 个 网 分 割 为 两 个 网 。 

如 果 仔 细 地 考虑 溢出 的 判别 条 件 ， 就 能 既 使 得 图 可 用 R 种 颜色 着 色 ， 又 使 得 插入 的 存储 和 
恢复 指令 条 数 最 少 。 . 

在 给 寄存 器 赋 了 值 之 后 , 再 将 其 值 溢出 到 存储 器 , 并 且 在 需要 使 用 它们 时 将 它们 重新 取 回 ， 
是 图 着 色 寄 存 器 分 配 程序 使 得 冲突 图 是 可 R 色 着 色 的 一 个 主要 手段 。 谥 出 具有 将 一 个 网 分 割 成 
两 个 以 上 网 的 作用 ， 因 而 可 能 减少 图 中 的 冲突 ， 并 增加 新 得 到 的 图 是 可 R 色 着 色 的 机 会 。 

每 一 个 邻接 表 元 素 有 一 个 分 量 spcost ， 它 估计 溢出 相应 符号 寄存 器 需要 的 溢出 代价 ， 其 
计算 方法 与 16.2 节 ( 译 者 注 : 原 书 误 为 16.1 节 ) 介绍 的 基于 使 用 次 数 的 方法 类 似 。 

更 具体 地 ， 溢 出 一 个 网 w 的 代价 是 

defwt. V^ 10%) +. usewt. X qodepiboo 一 copywt. 》 q9deptbcopy) 

def ew usecw copyew 

其 中 def、use 和 copy 分 别 是 网 w 中 的 各 个 定 值 、 使 用 和 寄存 器 复制 ; defwt、usewt 和 copywt 是 给 
指令 类 型 指定 的 权重 。 i i 

计算 溢出 代价 应 当 考虑 下 面 一 些 因素 : 
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1. 如 果 重 新 计算 一 个 网 的 值 比重 取 它 更 有 效 ， 则 代价 是 重新 计算 的 代价 ， 而 不 是 重 取 它 的 
代价 。 

2. 如 果 一 条 复写 指令 的 源 寄 存 器 和 目标 寄存 器 都 被 溢出 ， 则 不 再 需要 这 条 指令 。 

3. 如 果 一 个 已 溢出 的 值 在 同一 基本 块 中 有 若干 次 使 用 ， 并 且 已 恢复 的 值 在 这 个 基本 块 最 后 
一 次 使 用 这 个 已 溢出 值 之 前 都 一 直 保持 活跃 ， 则 在 此 基本 块 中 只 需要 取 这 个 值 一 次 。 

图 16-16 中 的 ICAN 例 程 Compute_spil11_costs () 计算 每 一 个 害 存 器 的 溢出 代价 ， 并 将 
结果 保存 于 邻接 表 中 。 取 、 存 和 复制 的 权重 分 别 是 图 16-3 中 的 Usewt、DefWwt 和 CopyWwt。 如 
果 考 虑 到 取 直 接 数 指令 和 加 直接 数 指令 ， 检 查 它们 的 出 现 并 指定 其 权重 为 1， 这 个 算法 可 进 一 
步 细 化 。 我 们 在 这 个 算法 中 加 入 了 上 述 条 件 的 前 两 个 条 件 ; 第 三 个 条 件 留 给 读者 作为 练习 。 该 
算法 使 用 了 下 面 几 个 函数 : 

1. depth(i) KER PERERA RARE 

2. Rematerialize(i, nblocks,ninsts,LBlock) 返 回 重 新 计算 编号 为 i 的 符号 寄存 
器 ， 而 不 是 溢出 后 再 重 取 它 的 代价 。 

3. Real (i) 返回 与 整数 ;具有 相同 值 的 实数 。 


procedure Compute_Spill.Costs(nblocks,ninsts,LBlock) 
nblocks: in integer 
ninsts: in integer —> integer 
LBlock: in integer —> array [i::nblocks] of array [--] of LIRInst 
begin 
i, j: integer 
r: real 
inst: LIRInst 
|| sum the costs of all definitions and uses for each 
|| symbolic register 
for i := 1 to nblocks do 
for j := 1 to ninsts[i] do 
inst := LBlock[i] [j] 
case LIR Exp.Kind(inst.kind) of 
binexp: if inst.opdi.kind - regno then 
AdjLsts[inst.opdl1:val].spcost 
+= UseWt * 10.0Tdepth(i) 


























inst.opd2.kind - regno then 
AdjLsts[inst.opd2.val].spcost 
+= UseWt * 10.0Tdepth(i) 













inst.opd.kind - regno then 
if inst.kind - regval then 
AdjLsts[inst.opd.vall.spcost 


-= CopyWt * 10.0tdepth(i) 
else 


AdjLsts[inst.opd.val].spcost 

+= UseWt * 10.0Tdepth(i) 

fi 

fi 
esac 
if LIR Has Left(inst.kind) & inst.kind * regval then 

AdjLsts[inst.left).spcost 
+= DefWt * 10.0Tdepth(i) 






图 16-16 计算 符号 寄存 器 溢出 代价 的 ICAN 代 码 
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od 
for i :- nregs*1 to nwebs do 
|| replace by rematerialization cost if less than 
|| spill cost 
r := Rematerialize(i,nblocks,ninsts,LBlock) 
if r « AdjLsts[il.spcost then 


AdjLsts[il.spcost := r 
fi 


od ` 
end || Compute Spill Costs 


图 16-16 (48) 





16.3.8 修剪 冲突 图 

下 面 我 们 尝试 用 R 种 颜色 给 图 着 色 ， 其 中 R 是 可 用 寄存 器 的 个 数 。 我 们 并 不 是 想 找 出 一 种 
完全 彻底 的 R 色 着 色 一 一 人 们 早 就 已 知 对 于 R> 3， 这 是 一 个 NP 完 全 问题 ， 并 且 除 此 之 外 ， 图 也 
可 能 是 不 能 以 R 色 着 色 的 。 替 代 地 ， 我 们 使 用 两 种 方法 来 简化 图 ， 一 种 方法 保证 能 使 得 图 的 一 
部 分 是 可 R 色 着 色 的 ， 只 要 这 个 图 的 剩余 部 分 是 可 R 色 着 色 的 。 另 一 种 方法 则 在 第 一 种 方法 没 
有 穷尽 图 的 情况 下 继续 乐观 地 进行 处 理 。 后 一 种 方法 不 会 直接 产生 一 种 R 色 着 色 ， 但 与 只 使 用 
前 一 种 方法 相 比 ， 它 常常 能 使 图 的 更 多 部 分 成 为 可 着 色 的 ， 因 此 非常 有 助 于 它 的 启发 式 值 。 

第 一 种 方法 基于 一 种 简单 但 非常 有 效 的 观察 ， 我 们 称 之 为 度 <R 规 则 : 给 定 一 个 包含 一 个 度 
数 小 于 R 的 结 点 的 图 ， 此 图 是 可 R 色 着 色 的 ， 当 且 仅 当 没 有 这 个 度数 小 于 R 的 结 点 时 此 图 是 可 尺 
色 着 色 的 。 显 然 ， 整 个 图 的 R 色 性 隐 含 了 不 含 所 选择 的 结 点 而 得 到 的 图 的 R 色 性 。 换 一 个 角度 
说 ， 假 设 我 们 有 此 图 在 没有 这 个 结 点 情况 下 的 一 种 R 色 着 色 ， 因 为 那个 结 点 的 度 小 于 R， 故 至 
少 有 一 种 颜色 没有 被 与 它 相 邻 的 结 点 使 用 ， 因 而 这 个 颜色 可 以 指派 给 那个 结 点 。 当 然 这 一 规则 
并 不 能 使 任意 图 都 是 可 R 色 着 色 的 。 事实 上 ， 图 © 


16-17 给 出 的 例子 中 ，a 是 一 个 可 2 色 着 色 的 ， 但 用 o NEP 
度 <R 规 则 却 不 能 判别 它 是 否 可 用 2 色 着 色 ; 图 O 
16-17b 是 可 3 色 着 色 的 ， 用 这 个 规则 同样 不 能 判别 。 (s1) (sa) 


但 是 这 个 规则 在 实际 中 对 于 解决 冲突 图 的 着 色 问题 e s 

非常 有 效 。 对 于 一 台 具 有 32 个 寄存 器 (或 它 的 两 倍 ， > y 

在 计算 浮 点 寄存 器 的 情况 下 ) 的 机 器 ， 它 足以 使 得 

所 遇 到 的 许多 图 都 是 可 着 色 的 。 图 16-17 a) 可 2 色 着 色 ，b) 可 3 色 着 色 ， 
第 二 种 方法 即 乐观 启发 式 方法 ， 通 过 删除 度 >R 但 不 适用 度 <R 规 则 的 图 的 例子 


的 结 点 来 推广 度 <R 规 则 。 这 种 方法 的 理由 是 因为 观察 到 一 个 结 点 虽 有 R 个 以 上 的 相 邻 结 点 ,但 
它们 不 必 都 有 不 同 的 颜色 ， 因 而 它们 可 能 不 会 使 用 到 所 有 有 R 种 颜色 。 因 此 ， 如 果 第 一 种 方法 设 
.有 穷尽 此 图 ， 则 我 们 接着 继续 选择 要 着 色 的 候选 者 ， 并 乐观 地 希望 ， 当 它们 需要 一 种 新 颜色 时 
能 有 可 用 的 颜色 。 

因此 ， 我 们 从 重复 地 寻找 图 中 那些 相 邻 接点 数 小 于 有 R 的 结 点 开始 ， 每 当 找到 一 个 这 样 的 结 
点 ， 便 将 它 从 图 中 删除 ， 并 放 到 栈 中 ， 以 便 按 找到 它们 的 逆序 对 它们 着 色 。 作 为 这 个 处 理 过 程 
的 一 部 分 ， 我 们 记 住 与 每 一 个 被 删除 结 点 相 邻 的 那些 结 点 〈 作 为 rmvadj 域 的 值 )， 以 便 在 寄 
存 器 指派 时 能 够 使 用 它们 (参见 下 一 节 )。 如 果 这 一 过 程 穷尽 了 此 图 ， 就 已 确定 出 R 色 着 色 是 可 
能 的 。 于 是 ,我 们 从 栈 中 弹出 这 些 结 点 ,并 给 它们 每 一 个 指派 一 种 未 指定 给 它 相 邻 结 点 的 颜色 。 
例如 ， 已 知 图 16-2 中 的 冲突 图 ， 从 此 图 我 们 能 够 按 如 下 顺序 删除 结 点 并 将 它们 放置 到 栈 中 ( 栈 
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底 位 于 右边 ): 


r3 r2 ri s4 s2 si s3 sb 36 | 
然后 我 们 可 弹出 这 些 结 点 ， 并 如 前 所 述 给 它们 指派 如 下 颜色 : 


结 点 o He 
r3 1 
r2 2 
ri 3 
S4 1 
s2 2 
si 3 
s3 1 
s5 3 
s6 2 


如 前 面 指出 的 ， 度 <R 规 则 有 时 并 不 能 完全 适用 。 在 那 种 情况 下 , 我们 应 用 乐观 启发 式 , 即 ， 
按 图 的 当前 结 点 度数 计算 ， 选 择 一 个 度 >R 且 具有 最 小 游 出 代价 的 结 点 ， 并 乐观 地 将 它 压 入 栈 
中 。 我 们 这 样 做 是 期 望 将 来 它 的 邻接 结 点 不 会 用 完 所 有 的 颜色 ， 因 此 将 应 在 修剪 冲突 图 时 做 出 
的 溢出 决定 推迟 到 实际 给 结 点 指派 颜色 时 ， 即 由 图 16-20 的 Assign_Regs () 例 程 来 决定 。 

在 继续 讨论 关于 修剪 图 的 代码 之 前 ， 我 们 提请 读者 注意 在 修剪 判断 过 程 中 保持 代码 和 冲突 
图 相互 同步 的 困难 性 。 因 为 溢出 代码 会 将 一 个 网 分 为 若干 个 网 (或 用 图 的 术语 ， 它 将 一 个 结 点 
分 成 若干 个 结 点 )， 因此 代码 和 冲突 图 的 这 种 同步 维护 代价 是 很 昂贵 的 。 我 们 处 理 这 个 问题 的 
方法 是 避免 在 修剪 时 更 改 代码 。 如 果 寄 存 器 指派 失败 ， 则 在 下 一 轮 迭 代 中 建立 邻接 矩阵 和 邻接 
表 将 会 更 快 一 些 ， 因 为 已 插入 了 这 些 溢出 代码 。 

图 16-18 给 出 了 应 用 度 <R 规 则 和 乐观 启发 式 方法 尝试 对 冲突 图 图 着 色 的 ICAN 例 程 
Prune_Graph() 。 它 使 用 图 16-19 的 例 程 adajust_Neighbors () 来 反映 从 图 中 删除 一 个 结 点 。 
全 局 变量 Stack 用 于 将 删除 结 点 的 顺序 传递 给 Assign_Regs O 例 程 ， 该 例 程 将 在 下 一 小 节 讨 论 。 


procedure Prune_Graph( ) 
begin 
success: boolean 
i, nodes := nwebs, spillnode: integer 
spillcost: real 
Stack := [J 
repeat 
|! apply degree < R rule and push nodes onto stack 
repeat 
success := true 
for i := 1 to nwebs do 
if AdjLsts(i] .nints > 0 
& AdjLsts[i].nints < nregs then 
success := false 
Stack è= [i] 
Adjust Neighbors(i) 
nodes -= 1 | 
fi 
od 
until success 
if nodes * 0 then 
[| find node with minimal spill cost divided by its degree and 
l| push it onto the stack (the optimistic heuristic) 


图 16-18 ”尝试 用 R 色 对 冲突 图 着 色 的 代码 
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spillcost := œ 
for i := 1 to nwebs do 
if AdjLsts[il.nints > 0 
& AdjLsts[i].spcost/AdjLsts[i].nints < spillcost then 
spillnode := i 
spillcost :- AdjLsts[i].spcost/AdjLstsfi].nints 
fi 


od 
Stack @= [spillnode] 
Adjust. Neighbors(spillnode) 
nodes -= 1 
fi 
until nodes = 0 
end || Prune. Graph 


图 16-18 ( 续 ) 


procedure Adjust. Neighbors(i) 
i: in integer 
begin 
j», k: integer 
|| move neighbors of node i from adjnds to rmvadj and 
{| disconnect node i from its neighbors 
for k := 1 to |AdjLsts[i].adjndsi do 
AdjLsts[k].nints -- 1 
j := 1 
while j < lAdjLsts[k].adjnds| do 


if AdjLsts[k] .adjnds!j = i then 
AdjLsts[k].adjnds e- j 
AdjLsts[k].rnvadj e- [i] 


| += 1 


AdjLsts[i].nints := 0 
AdjLsts[i].rmvadj @= AdjLsts[i} 
AdjLsts[i].adjnds :- [] 

end || Adjust. Neighbors 





图 16-19 修剪 冲突 图 使 用 的 例 程 aajust_Neighbors () 


16.3.9 指派 寄存 器 


用 有 R 种 颜色 对 冲突 图 着 色 的 ICAN 例 程 Assign_Regs () 如 图 16-20 所 示 。 它 用 到 例 程 
Min, Color (r) ， 此 例 程 返回 那些 与 r 相 邻 的 结 点 还 未 使 用 的 颜色 中 编号 最 小 的 颜色 编号 ; 当 
所 有 颜色 都 已 用 于 相 邻 结 点 时 返回 9。 然后 它 将 这 个 值 赋 给 函数 Real_Reg (s) ， 这 个 函数 返回 
已 指派 给 符号 寄存 器 s 的 真实 寄存 器 。 

当 Assign_Regs () 成 功 时 ， 接 着 调用 图 16-21 所 示 的 Modify_code () ， 以 便 用 对 应 的 
真实 寄存 器 替代 这 些 符 号 寄存 器 。Modify_Code () 用 Color_to_Reg () 将 指派 给 一 个 符号 
寄存 器 的 颜色 转换 为 对 应 的 真实 寄存 器 名 。Color_to_Reg () 用 Real_Reg () 来 确定 给 一 种 
颜色 指派 的 是 哪 一 个 真实 寄存 器 。 
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procedure Assign Regs( ) returns boolean 
begin 
C, i, r: integer 
Success := true: boolean 
repeat 
|| pop nodes from the stack and assign each one 
|| a color, if possible 
r := Stackl-1 
Stack e- -1 
c := Min Color(r) 
it c > 0 then 


if r s nregs then 


Real Reg(c) 
fi 
AdjLsts[r].color := c 
else 
|| if no color is available for node r, 
|| mark it for spilling 
AdjLsts[r].spill := true 
Success := false 
fi 
until Stack = [] 
return success 
end || Assign Regs 


图 16-20 给 真实 寄存 器 和 符号 寄存 器 指派 颜色 的 例 程 


procedure Modify. Code (nblocks,ninsts,LBlock) 
nblocks: in integer 
ninsts: inout array [i1::nblocks] of integer 
LBlock: inout array [i1-:nblocks] of array [::] of LIRInst 
begin 
i, j, k, m: integer 
inst: LIRInst 
|| replace each use of a symbolic register by the real 
|| register with the same color 
for i :- 1 to nblocks do 
for j :- 1 to ninsts[i] do 
inst := LBlock[i][jl 
case LIR Exp Kind(inst.kind) of 
binexp: if inst.opdi.kind = regno 
& Reg to.Int(inst.opdi.val) » nregs then 
LBlock[i][jl.opdi.val := 
Color to Reg(AdjLsts[inst.opdi.val].color) 































fi 
if inst.opd2.kind - regno 
& Reg to Int(inst.opd2.val) > nregs then 
LBlock[i] [j] .opd2.val := 
Color_to_Reg(AdjLsts [inst .opd2.val] . color) 
fi 
unexp: if inst.opd.kind = regno 
& Reg_to_Int (inst .opd.val) > nregs then 
LBlock[i][jl.opd.val := 
Color_to_Reg(AdjLsts [inst .opd.val] .color) 
fi 
listexp: for k := 1 to linst.args| do 
if Reg to Int(inst.argsik01.regno) > nregs then 


图 16-21 修改 过 程 中 的 指令 以 用 真实 寄存 器 替代 符号 寄存 器 的 ICAN 例 程 
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m := AdjLsts[inst.argsik01.val].color 
LBlock[i][jl.argsii01.val := 
Color_to_Reg(m) 


noexp: esac 
if LIR_Has_Left(inst.kind) then 
if Reg_to_Int(inst.left) > nregs then 
LBlock [i] [j] .lieft := 
Color. to Reg(AdjLsts[inst.left].color) 
fi 
fi 
od 
od 
end || Modify Code 


图 16-21 (4) 





16.3.10 溢出 符号 寄存 器 


一 个 冲突 图 着 色 所 需要 的 颜色 数目 常常 叫做 它 的 寄存 器 压力 (register pressure), DIES 
了 使 得 图 是 可 着 色 的 而 修改 代码 称 为 是 “减少 寄存 器 的 压力 ”。 

一 般 地 ， 溢 出 符号 寄存 器 的 作用 是 将 一 个 网 分 割 为 两 个 以 上 的 网 ， 并 将 与 原 网 的 冲突 分 布 
到 新 的 多 个 网 中 。 例 如 ， 如 果 如 图 16-22 所 示 ， 引 入 对 tmp 赋 值 和 读 取 的 存 取 指令 来 分 割 图 16-5 
中 的 网 wl1， 则 它 将 被 下 表 中 所 示 的 4 个 新 网 w5，. . .，w8 所 替代 : 


网 成 员 

w2 B5 中 x 的 定 值 ，B6 中 x 的 使 用 
w3 B2 中 y 的 定 值 ，B4 中 y 的 使 用 
w4 B1 中 y 的 定 值 ，B3 中 y 的 使 用 
w5 B2 中 x 的 定 值 ，B2 中 的 tmp “x 
w6 B3 中 x 的 定 值 ，B3 中 的 tmp x 
w7 B4 中 的 x tmp，B4 中 x 的 使 用 


w8 B5 中 的 x tmp，B5 中 x 的 使 用 








图 16-22 图 16-5 中 例子 在 溢出 网 wl 后 
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相应 的 冲突 图 如 图 16-23 所 示 。 


当 已 知 不 能 使 得 冲突 图 用 R 色 着 色 时 ， 我 们 接 下 来 便 © (8) 
分 割 那 些 已 标识 要 溢出 的 结 点 ， 即 对 于 它 有 © Q 


@) 
AdjLsts [i] .spill=truefy# Ai. 


Æ 16-244 H T Gen, Spill Code O MAK. KB 
程 使 用 的 子 程序 Comp_Di sp (r) 的 代码 也 在 图 16-24 中 给 © 
出 。 这 个 子 程序 确定 符号 寄存 器 r 是 否 已 指派 有 一 个 溢出 图 16-23 图 16-22 的 网 之 间 的 冲突 
位 移 ， 如 果 没 有 ， 则 增加 Disp， 并 存储 此 位 移 于 
AdjLsts [i .Gisp， 其 中 i 是 7 在 邻接 表 中 的 索引 。 变 量 BaseReg 存 放 在 溢出 和 恢复 过 程 中 用 
作 基 寄存 器 的 寄存 器 名 。Gen_Spil1_code 另 外 还 使 用 了 如 下 两 个 函数 : 


1. insert, before (i, j, ninsts, LBlock, inst) 将 指令 inst 直 接 插 在 指令 LBlock [i jZ 
前 (参见 图 4-14)。 


2. insert_after (i, j, ninsts,LBlock, inst) 将 指令 inst 紧 接着 插 在 指令 LBlock [i] [j] 
之 后 (参见 图 4-14)。 


注意 ，Gen_Spill_Code () 没有 考虑 到 取 或 加 直接 数 的 情况 ， 也 没有 考虑 其 他 的 恢复 方 
式 ， 并 且 它 只 处 理 字 大 小 的 操作 数 。 本 章 末尾 的 练习 将 处 理 其 中 的 一 些 问题 。 


procedure Gen Spill Code(nblocks,ninsts,LBlock) 

nblocks: in integer 

ninsts: inout array [1--nblocks] of integer 

LBlock: inout array [1--nblocks] of array [-+] of LIRInst 
begin 

i, j, regct := 0: integer 

inst: LIRInst : 

|| check each definition and use of a symbolic register 

|| to determine whether it is marked to be spilled, and, 

|| if so, compute the displacement for it and insert 

|| instructions to load it before each use and store 

|| it after each definition 

for i := 1 to nblocks do 


j := 1 
while j < ninsts[i] do 
inst := LBlock[i][jl 


case LIR_Exp_Kind(inst.kind) of 
binexp: if AdjLsts[inst.opdi.val].spill then 
Comp Disp(inst.opdi.val) 
insert before(i,j,ninsts,LBlock,kind:loadmem, 
left:inst.opdi.val,addr:(kind:addrrc, 
reg:BaseReg,disp:Disp>>) 
jemi 
fi 
if inst.opd2 * inst.opdi 
& AdjLsts[inst.opd2.val].spill then 
Comp. Disp(inst.opd2.val) 
insert before(i,j,ninsts,LBlock,(kind:loadmem, 
left:inst.opd2.val,addr:(kind:addrrc, 
reg:BaseReg,disp:Disp??) 
jd 
fi 
if AdjLsts[inst.opd.val].spill then 


图 16-24 利用 图 16-16 中 的 Compute_Spill_Costs () 计 算 的 代价 生成 溢出 代码 的 ICAN 代 码 
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Comp. Disp(inst.opd.val) 
insert before(i,j,ninsts,LBlock,4kind:loadmem, 
left:inst.opd.val,addr:(kind:addrrc, 
reg:BaseReg,disp:Disp>>) 
j +=1 
fi 


listexp: for k := 1 to linst.args| do 
if AdjLsts[inst.argsik01.val].spill then 
Comp_Disp (inst .args!k@1.val) 
insert_before(i,j,ninsts,LBlock, 
<kind: loadmem, left: inst .opd.val, 
addr :kind:addrrc, 
reg:BaseReg,disp:Disp>>) 
regct += 1 
fi 
od 
j += regct - 1 
noexp: esac 
if LIR_Has_Left (inst .kind) 
& AdjLsts[inst.left].spill then . 
Comp. Disp(inst.left) 
insert after(i,j,ninsts,LBlock,(kind:stormem, 
addr: (kind: addrrc, 
reg:BaseReg,disp:Disp??, 
opd: <kind:regno,val:inst.left>>) 
jei 
fi 
od 
od 
end || Gen. Spill. Code 


procedure Comp Disp(r) 
: in Register 


if symbolic register r has no displacement yet, 
assign one and increment Disp 

Note: this assumes each operand is no larger 
than a word 

AdjLsts[Reg to Int(r)].color = -e then 
AdjLsts[Reg to Int(r)].disp := Disp 

Disp += 4 





|| Comp.Disp 


图 16-24 (£X) 


还 要 注意 的 是 ， 如 果 我 们 必须 为 循环 中 使 用 或 定 值 的 寄存 器 插入 溢出 代码 ， 则 可 能 的 话 ， 
应 当 在 进入 循环 之 前 恢复 它们 ， 并 在 从 循环 出 口 之 后 溢出 它们 。 这 需要 用 到 13.3 节 介绍 的 边 分 
割 。 具 体 地 ， 在 图 16-26 的 例子 中 ， 如 果 我 们 不 得 不 溢出 s2 ， 则 需要 在 B1 和 B2 之 间 引 入 一 个 新 
基本 块 Bla， 并 在 其 中 恢复 s2 ， 在 B2 和 84 之 间 引 入 B2a， 并 在 B2a 中 溢出 它 。 


16.3.11 图 着 色 寄存 器 分 配 的 两 个 例子 
作为 图 着 色 寄 存 器 分 配 的 第 一 个 例子 ， 考 虑 图 16-25 中 的 流 图 ， 其 中 假设 < 是 一 个 非 局 部 变 
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量 ， 同 时 我 们 有 5 个 可 用 于 分 配 的 寄存 器 r1、r2、r3、r4 和 r5 (因此 R=5)， 并且 只 有 g 可 以 
309 放 在 r5 中 。 另 外 假设 基本 块 B1、B3 和 B4 的 执行 频率 是 1， 而 B2 的 是 7。 因 为 每 个 符号 寄存 器 有 
511| 一 个 网 ， 故 我 们 使 用 符号 寄存 器 的 名 字 表 示 网 ， 如 图 16-26 所 示 。 





print(s2,s3,s4,s5) | BÀ 





图 16-25 用 于 图 着 色 寄 存 器 分 配 的 一 个 小 例子 。 图 16-26 图 16-25 的 例子 用 符号 寄存 器 替代 了 局 部 变量 


然后 我 们 为 图 16-26 中 这 段 代码 建立 邻接 矩阵 ， 如 图 16-27b 所 示 ， 图 16-27a 是 它 的 冲突 图 的 
图 形 表示 。 


la] 
n 


r2 r3 r4 r5 s1 s2 s3 s4 s5 


kd 
Fh Rh Fh th kh Fh ct ct ct ct 
Fh th ch Fh Fh th ct c ct 
Hh hh hh Fh hh hh ch ct 
hh Rh hh th hh Fh oct 
ct Fh oct ct ct ct 
ct ct ct ct ct 
ct ct ct ct 





a) b) 
图 16-27 图 16-26 中 例子 的 a) 冲突 图 和 b) 邻接 矩阵 ， 其 中 t 和 f 分 别 代表 true 和 false 
对 图 16-26 中 基本 块 B1 内 的 复写 赋值 s4 “sl 施加 寄存 器 合并 ， 得 到 了 如 图 16-28 所 示 的 流 
图 ， 以 及 图 16-29 中 新 的 冲突 图 和 邻接 和 矩阵 。 现 在 已 没有 进一步 从 并 的 机 会 ， 所 以 我 们 建立 这 
个 例 程 的 邻接 表 ， 如 图 16-30 所 示 。 l 





FABIE 


r3 


r2 





r5 


r4 si 
82 
ri r2 r3 r4 r5 si s2 83 s5 
r2 t 
r3 t t 
83 r4 t t t 
r5 t t tt 
s1 f f fft 
52 f ff ftt 
s3 f f f f ttt 
ri 85 s5 |f ff f f f t tt 
s6 s6 Li f £ f t t t t t 
a) b) 


图 16-29 图 16-28 中 的 例子 在 合并 符号 寄存 器 s1 和 s4 之 后 的 a) 冲突 图 和 


b) 邻接 矩阵 ， 其 中 t 和 f 分 别 代 表 true 和 false 


adjnds 
color disp spcost nints 1 2 3 4 5 6 7 8 


" JA A eleele 

2 AA A Ei E ES | 

3 [0 D1D30561b bI 
"aE 

s e e 
“CC [8] Bs Der Deo eo jo] 

2 [JD] [eo] (=) Celeste Te] 

s [-] L7] [Ls] 

s [-]L-][9] 41 

s [-= | [=] [oo] 081 BsTe Tee 15] 


ym 
= 
个 
uU 


0 图 16-28 中 代码 的 邻接 矩阵 
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下 面 我 们 使 用 DeftWt=Usewt=2 和 CopywWt=1 计 算 溢出 代价 如 下 : 


符号 寄存 器 溢出 代价 
sl 2.0 
s2 1.0 +21.0 + 2.0 + 2.0 = 26.0 
s3 6.0+14.0+4.0+ 2.0 = 26.0 
s5 2.0+4.0+2.0=8.0 
s6 d 


注意 ，s1 的 游 出 代价 是 2.0， 因 为 赋 给 它 的 是 一 个 直接 数 ， 并 且 可 通过 放置 一 条 取 直 接 数 
的 指令 位 于 B3 中 第 二 条 指令 使 用 它 之 前 ， 使 它 重 新 回 到 寄存 器 中 。 另 外 ， 我 们 使 se 的 溢出 代 
价 是 无 穷 大 ， 因 为 这 个 符号 寄存 器 已 经 死去 。 

之 后 我 们 着 手 修剪 图 16-29。 因 为 r1 到 r4 每 一 个 寄存 器 的 邻接 结 点 数 都 小 于 5， 因 此 从 图 
中 删除 它们 ， 并 将 它们 压 人 到 栈 中 ， 导 致 栈 如 下 所 示 : 


r4 r3 r2 zi] 


由 此 得 到 的 冲突 图 如 图 16-31 所 示 ， 而 对 应 的 邻接 表 如 图 16-32 所 示 。 注 意 ， 结 点 z5 的 邻接 结 点 
数 小 于 5， 因 此 删除 它 并 压 入 栈 中 ， 导 致 栈 变 为 


rb r4 r3 r2 rl | 
并 且 得 到 如 图 16-33 所 示 的 冲突 图 和 如 图 16-34 所 示 的 邻接 表 。 





adjnds 
color disp spcost nints 1 2 3 4 5 
z5 a [e] ee Lo 
s1 2 ee Le) 
s2 a Eed Le] 
s E A eese] 
a Eeg e esels Tes] 
s3 2 E C5] eses] 
s [=] C Peo) [8] esT] 
s5 s e] ee La] edele es 
s s [e] ee | [Ls] seess | 





图 16-31 将 rl 至 r4 压 人 栈 后 得 到 的 冲突 图 图 16-32 与 图 16-31 中 冲突 图 对 应 的 邻接 表 


现在 已 经 不 存在 有 5 个 以 上 邻接 结 点 的 结 点 ， 所 以 我 们 将 剩余 的 符号 寄存 器 按 任意 顺序 压 


sl s2 s3 85 s6 rb r4 r3 r2 ri 
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si 


s2 


s3 


o 


8 
图 16-33 将 r5 压 入 栈 后 得 到 的 冲突 图 
adjnds 
1 2 3 4 


o 
o 
ne 
o 
[a 
a 
H 
a 
"a 
m 
"o 
[e] 
o 
a 
cet 
B 
[^ 
B 
et 
a 


[= [lL |] [9] 
2[-J[-][*]09] 
[= |[=|[=] Le] 
s [-][-10*][»] 
:s[-IL1 Ce] 
EXE 
2 [-]J[-)[99 [a] [as] ss] es] 
s3 [-][-]Be9] [5] 
s [-][-][so] [4] 
s [-][-J[*]105] [s]eoo]ss] 


图 16-34 与 图 16-33 中 冲突 图 对 应 的 邻接 表 


然后 在 将 它们 弹出 栈 时 对 它们 着 色 〈 即 指派 真实 寄存 器 给 符号 寄存 器 )， 结 果 如 下 : 
寄存 器 颜色 


H 
Cn 
OD pr 


由 此 我 们 得 到 了 一 种 无 需 溢出 任何 寄存 器 到 存储 器 的 寄存 器 分 配 。 图 16-35 给 出 了 用 真实 寄存 
器 替换 符号 寄存 器 后 的 流 图 。 
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第 二 个 例子 将 需要 溢出 一 个 寄存 器 。 我 们 从 图 16-36 的 代码 开始 ， 代 码 中 已 经 使 用 了 符号 
寄存 器 。 假 设 真实 寄存 器 r2、r3 和 r4 可 用 于 分 配 。 这 个 例子 的 冲突 图 和 邻接 矩阵 如 图 16-37 


所 示 。 







r3 €. r3 +1 
r2 € 2 * r2 
r3 « 10 


print(r3,r2,r4,r5)| B4 


(816-35 对 图 16-28 中 的 流 图 用 真实 
寄存 器 替代 符号 寄存 器 





a) 
图 16-37 图 16-36 中 例子 的 a) 冲突 图 ，b) 邻接 矩阵 











s2 «€ [r1] 
s4 < s2 +2 
s5 «- s4 + s2 
s6 < s4 - s2 


s2 «- [ri+4] 
s3 < [ri] 

s5 «- s2 + s3 
s6 < [ri+8] 










B2 B3 





s7 < [ri1*12] 
s8 <— s3 + s6 
s9 «- s8 - s5 
print(s7,s8) 


B4 


图 16-36 图 着 色 寄 存 器 分 配 的 另 一 个 例子 


r2 r3 r4 si s2 s3 s4 s5 s6 s7 s8 


2 
Cho fh Eh Fh ch Fh oh ^5 c c 
Hh Rh Hà Rh OB kh kh hh hh ct 
Ph oth RR RH Rh rh CS HS Eh 
Hh hh Fh hh hh hh hh hh 
Ha hh kh oct ct ct ct 
Fh kh ct ct ct ^ 
Kh hh Fh hh ct 
ha oct ct ct 
hh hh ct 


由 于 没有 需要 合并 的 情形 ， 所 以 我 们 构造 邻接 表 如 图 16-38 所 示 。 接 下 来 ， 我 们 计算 溢出 
代价 并 把 它们 填 至 邻接 表 中 。 注 意 s1 和 s9 的 溢出 代价 都 是 无 穷 大 ， 因 为 s1 在 B1 出 口 处 是 已 死 


去 的 ， 而 s9 在 它 的 定 值 点 就 是 已 死去 的 。 


下 面 我 们 修剪 这 个 图 ， 删 除 结 点 s1 (没有 邻接 结 点 ) 并 将 它 压 入 栈 中 。 接 着 删除 真实 寄 
存 器 s4 和 s9 (每 个 都 有 两 个 相 邻 结 点 )， 并 将 它们 压 入 栈 中 ， 结 果 如 下 : 


S90 s4 r4 r3 r2 sl 


并 且 得 到 如 图 16-39a 所 示 的 冲突 图 。 删 除 结 点 s8 并 将 它 压 和 人 栈 中 ， 得 到 如 下 栈 和 如 图 16-39b 所 


示 的 冲突 图 。 


S8 s9 s4 r4 r3 r2 si 
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adjnds 

color disp spcost nints 1 2 3 4 5 
2 ee 
s HHOH 
"HEHA 
TE 
2 QORA EA 
s HAEA | e 
“JEJE L2] Ee) 
s. HAA [ST&TSTSTS] 
« HAA 8] ee 
QA C81 eee] 
« HAA 2) ET 
-HEOK 


图 16-38 图 16-36 中 代码 的 邻接 表 
7 s3 S7 s3 


ZX ZX) ZN 


P ss 


a 


S e Hc ee 


b) c) 


图 16-39 a) 删除 结 点 sS1、z2 、z3 、z4、s4 和 s9 并 将 它们 压 人 栈 之 后 的 冲突 图 ，b) 然后 删除 
结 点 s8 并 将 它 压 入 栈 之 后 的 冲突 图 ，c) 删除 结 点 s7 并 将 它 压 人 栈 之 后 的 冲突 图 


在 剩 下 的 这 个 图 中 ， 每 一 个 结 点 的 度 都 大 于 或 等 于 3， 因 此 选择 一 个 按 当 前 度 划 分 具有 最 
小 溢出 代价 的 结 点 ， 即 s7,， 将 它 压 人 栈 中 。 从 图 形 上 看 ， 这 将 冲突 图 归 约 为 图 16-39c 所 示 形 式 。 
于 是 我 们 再 选择 一 个 按 当前 度 划 分 具有 最 小 溢出 代价 的 结 点 ， 即 s5， 并 将 它 压 入 栈 中 ， 由 此 
得 到 的 冲突 图 如 图 16-40a 所 示 。 现 在 ， 所 有 结 点 的 度 都 小 于 3， 因 此 我 们 将 它们 全 部 压 入 栈 中 ， 
结果 得 到 的 栈 为 : 


s2 s3 s6 sb s7 s8 s9 s4 r4 r3 r2 s1 | 


现在 我 们 开始 从 栈 中 弹出 结 点 ， 给 它们 指派 颜色 ， 并 从 AdjLsts [] .rmvadj 域 重新 构造 
冲突 图 的 邻接 表 形 式 。 在 弹出 项 上 4 个 结 点 之 后 ， 我 们 得 到 如 图 16-40b 所 示 的 冲突 图 (其 中 带 
圈 的 黑体 字 指 出 颜色 ); 并 且 已 没有 颜色 可 用 于 结 点 s5。 

因此 我 们 着 手 用 BaseReg=z10、Disp=0 和 Disp= 4 分 别 为 基本 块 B4 中 的 s7 和 s5 生 成 溢出 
代码 ， 如 图 16-41 所 示 。 接 着 建立 这 个 新 流 图 的 冲突 图 ， 如 图 16-42 所 示 。 从 它 可 清楚 地 看 出 ， 我 们 
可 以 简单 地 修剪 此 图 ， 并 给 符号 寄存 器 指派 与 它 颜色 相同 的 真实 寄存 器 ， 结 果 如 图 16-43 所 示 。 


519 
1 
520 
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a) b) 







s2 «- [ri] s2 <- [frl+4] 
s4 & 82 +2 s3 < {ri] 
s5 < s4 + s2 s5 < s2 + s3| B3 
[ri0*4] © s5 [ri0*4] < s5 
s6 < s4 - s2 s6 «- [r1+8] 





s7 € [r1+12] 
[r10] < s7 

s8 < s3 + s6 
s5 < [r10+4] 


s9 «- s8 - s5 
s7 < [r10] 
print(s7,s8) 


图 16-41 图 16-36 增 加 了 s5 和 s7 的 溢出 代码 之 后 的 流 图 


se (2) 


图 16-42 图 16-41 中 代码 的 冲突 图 
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B2 r4 «- r3 + r2| B3 





r3 «€ r2 - r3 r3 < [r1*8) 


r4 «- [ri*12] 
[Iri0) «- r4 

r2 r2 + r3 
r4 <= [ri0+4] 
r3 «- r2 - r4 
r4 «- [r10] 
print(r4,r2) 


B4 


图 16-43 对 图 16-41 的 流 图 用 真实 寄存 器 替换 符号 寄存 器 


16.3.12 其 他 问题 

Bernstein 等 人 [BerG89] 讨 论 了 用 于 选择 要 溢出 的 值 的 三 种 启发 式 以 及 一 个 分 配器 ， 这 个 分 
配器 尝试 这 三 种 启发 式 并 从 中 选择 一 个 最 好 的 使 用 。 第 一 种 启发 式 是 
cost(w) 
degree(w)? 
它 基 于 这 样 一 种 观察 : 溢出 度数 高 的 网 能 减少 其 他 更 多 结 点 的 度数 ， 因 而 也 更 可 能 使 得 谥 出 之 
后 度数 小 于 R 的 网 的 个 数 较 多 。 第 二 和 第 三 种 启发 式 使 用 了 一 种 称 做 area O 的 度量 ， 它 的 定义 
如 下 : i 

area(w) = > (width) . 54D) 


Ieinst(w) 


hiw) = 





其 中 jnst(w) 是 网 w 中 指令 的 集合 ，widip(D 是 在 指令 1 活跃 的 网 的 个 数 ，depthp(D 是 1 的 循环 霸 套 层 

次 。 这 两 种 启发 式 都 企图 将 每 一 个 网 对 寄存 器 压力 的 全 局 作用 考虑 进来 ， 它 们 的 定义 如 下 : 

byw) = cost(w) 

area(w) - degree(w) 
cost(w) 


bau) = area(w) - degree(w)? 


作者 报告 ， 在 试用 了 这 三 种 启发 式 方法 以 及 其 他 一 些 修改 的 15 个 程序 中 ， 第 一 种 启发 式 方 
法 有 4 个 程序 最 好 ， 第 二 种 有 6 个 ， 第 三 种 有 8 个 (第 二 和 第 三 种 有 一 个 程序 基本 相当 )， 并 且 在 
每 种 情形 下 ， 它 们 中 的 最 好 情形 都 要 好 于 前 面 介 绍 的 方法 。 这 种 分 配方 法 目前 已 用 于 IBM 的 
POWER 和 PowerPC 编 译 器 中 (参见 21.2 节 )。 

Briggs [Brig92] 对 这 种 分 配 算 法 提出 了 如 下 扩充 建议 : 

1. 一 种 比 Nickerson 用 于 Intel 386 体 系 结构 的 方法 更 为 成 熟 的 处 理 寄存 器 偶 对 的 方法 ， 这 种 
方法 源 于 将 溢出 决定 推迟 到 已 指派 寄存 器 之 后 〈 参 见 练习 16.4) ; 

2. 一 种 改善 的 重 回 寄 存 器 (rematerialization) 方法 ， 重 回 寄 存 器 是 在 寄存 器 中 重新 生成 诸 
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如 常数 之 类 的 值 的 过 程 ， 重 新 计算 这 种 值 比 溢出 它们 然后 再 取 回 要 更 加 有 效 ; 

3. 一 种 在 着 色 之 前 积极 地 溢出 网 的 方法 ， 这 种 方法 在 着 色 时 考虑 的 是 过 程 的 流 图 结构 ， 而 
不 是 冲突 图 ; 

Briggs 的 重 回 寄存 器 的 方法 包括 将 一 个 网 分 割 为 构成 它 的 各 个 值 ， 执 行 一 种 数据 流 计算 ， 并 构 


造 新 的 网 。 它 执行 的 这 种 数据 流 计算 将 每 一 个 可 能 需 T 
要 重 回 寄 存 器 的 值 与 使 该 值 重 回 寄存 器 的 指令 相连 ， 
它 构 造 的 每 一 个 新 网 由 相连 了 相同 指令 的 所 有 值 组 成 。 m insti inst2 inst3 
数据 流 计算 使 用 的 格 是 一 种 如 图 16-44 所 示 的 扁平 格 。 
注意 ， 在 RISC 体 系 结构 中 ， 对 于 大 常数 的 情形 ， 1 
一 个 值 重 回 寄存 器 可 能 需要 两 条 指令 ， 一 条 取 直 接 图 16-44 重 回 寄 存 器 格 


数 的 高 部 ， 另 一 条 将 它 与 一 个 已 取 值 的 寄存 器 相 加 ， 
这 种 处 理 偶尔 也 会 比 理 想 情 况 更 进一步 地 溢出 一 个 网 ， 因 此 需 用 一 修复 遍 来 寻找 这 种 网 ， 并 将 
它们 重新 连接 起 来 。 


16.4 基于 优先 级 的 图 着 色 


基于 优先 级 的 图 着 色 寄 存 器 分 配 在 总 体 结构 上 与 前 一 节 介 绍 的 方法 类 似 ， 但 它 在 儿 个 重要 
的 细节 上 有 所 不 同 ， 有 一 些 是 本 质 的 ， 有 一 些 是 伴随 的 。 这 种 方法 由 Chow 和 Hennessy 首 创 
([ChoH84] 和 [ChoH90])， 其 目的 是 想 使 得 各 种 分 配 决策 比 前 面 的 方法 对 代价 和 获 益 更 敏感 。 

基于 优先 级 方法 的 一 个 显著 的 不 同 是 ， 它 在 寄存 器 分 配 之 前 先 分 配 所 有 对 象 到 它们 的 存储 
器 单元 ， 然 后 尝试 将 它们 迁移 到 寄存 器 ; 而 不 是 先 分 配 它们 到 符号 寄存 器 ， 然 后 尝试 给 符号 寄 
存 器 指派 真实 寄存 器 ， 并 且 当 需要 时 生成 溢出 代码 。 尽 管 在 符号 寄存 器 对 应 于 未 指定 具体 地 址 
的 存储 单元 这 一 点 上 ， 这 两 种 方法 看 起 来 似乎 是 等 价 的 ， 但 它们 实际 上 是 不 相同 的 。 图 着 色 方 
法 是 乐观 的 一 一 它 开始 于 这 种 假定 : 所 有 符号 寄存 器 都 可 能 分 配 到 一 个 真实 寄存 器 ， 并 且 这 样 
做 时 它 可 能 成 功 。 但 是 ， 基 于 优先 级 的 着 色 方 法 是 悲观 的 : 它 可 能 不 能 给 所 有 存储 单元 分 配 寄 
存 器 ， 因 此 ， 对 于 没有 存储 器 到 存储 器 操作 的 体系 结构 ( 即 RISC )， 它 需要 保留 每 一 种 寄存 器 
中 的 4 个 寄存 器 ， 以 便 用 于 计算 含 未 能 成 功 分 配 到 寄存 器 的 变量 的 表达 式 。 因 此 ， 它 从 不 利 条 
件 开始 ， 即 可 分 配 的 寄存 器 较 少 。 

另 一 个 不 同 是 基于 优先 级 的 方法 被 设计 成 机 器 无 关 的 形式 ， 因 此 它 将 若干 机 器 特有 的 量 参数 
化 了 ， 这 些 参量 可 专门 针对 一 个 给 定 的 实现 而 具体 化 。 这 点 不 同 不 是 主要 的 一 一 它 与 其 他 机 器 专 
用 方法 没有 太 大 的 区 别 。 这 些 参量 是 16.2 节 定义 中 的 一 些 ， 即 jacost stcost, usesave 及 defsave。 

第 三 个 较为 显著 的 不 同 是 所 使 用 的 网 和 冲突 的 概念 。 
Chow 和 Hennessy 表 示 一 个 变量 的 网 为 该 变量 在 其 中 是 活跃 yex*c 
的 基本 块 的 集合 ， 并 称 之 为 活路 范围 (five range). Ang 16-45 if y = 0 goto Li 
的 例子 所 示 ， 这 种 定义 是 稳妥 的 ， 但 它 大 大 不 如 图 着 色 方 ze€y*àa 
法 精确 ， 在 图 着 色 方法 中 ， 变 量 x、y、z 和 w 之 中 没有 一 个 "tt 
在 另 一 个 变量 的 定 值 点 是 活跃 的 ， 因 此 它们 之 间 不 存在 冲 i 
突 。 但 使 用 Chow 和 Hennessy 的 方法 ，x 与 y 冲 突 ，y 既 与 z 图 1645 Chow 和 Hennessy 的 活跃 范围 的 
也 与 w 冲 突 ，z 和 w 冲 突 。 产 生 的 冲突 图 如 图 16-46 所 示 9 。 精度 不 如 我 们 的 网 的 代码 例子 


x€<atb 





O 基于 优先 级 图 着 色 寄存 器 分 配 的 最 早 介绍 中 还 进一步 包括 了 与 一 般 图 着 色 方 法 的 一 个 显著 的 不 同 ， 即 分 配 过 
程 分 为 局 部 遍 和 全 局 遍 ， 局 部 遍 做 基本 块 内 的 分 配 和 跨 一 小 族 基 本 块 的 分 配 。 
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图 16-46 图 16-45 中 代码 的 a) 基于 优先 级 的 图 着 色 冲 突 图 ，b) 图 着 色 冲 突 图 


Larus 和 Hilfinger 的 SPUR LISP 编 译 器 [LarH86] 的 寄存 器 分 配器 使 用 了 基于 优先 级 着 色 的 一 
个 版 本 ， 它 与 Chow 和 Hennessy 的 方法 有 下 述 两 点 不 同 : 

1. 它 一 开始 便 给 临时 变量 指派 寄存 器 ， 并 当 需 要 时 生成 它们 的 溢出 代码 。 

2. 它 处 理 的 是 SPUR 汇 编 语言 而 不 是 中 级 中 间 代 码 ， 因 此 必须 为 要 溢出 的 临时 变量 加 入 取 
数 和 存 数 指令 。 

Briggs [Brig92] 研 究 了 两 种 寄存 器 分 配器 的 运行 时 间 ， 一 种 是 他 自己 的 ， 另 一 种 是 基于 优 
先 级 的 分 配器 ， 他 发 现 对 于 他 的 测试 程序 ， 他 的 这 个 分 配器 需要 的 时 间 大 约 是 O(n log n), if 
基于 优先 级 的 分 配器 大 约 需要 O(n*)， 其 中 n 是 程序 中 的 指令 条 数 。 


16.5 其 他 寄存 器 分 配方 法 


关于 其 他 几 种 图 着 色 全 局 寄存 器 分 配方 法 也 有 一 些 介绍 和 评价 ， 其 中 包括 两 种 利用 过 程 的 
控制 树 (参见 7.6 节 ) 来 指导 溢出 或 图 的 修剪 判定 的 方法 ， 一 种 是 由 Callahan 和 Koblenz 
[CalK91] 开 发 的 ， 另 一 种 由 Knobe 和 Zadeck [KnoZ92] 开 发 。 

由 Gupta、Soffa 和 Steele [GupS89] 开 发 的 另外 一 种 方法 利用 最 大 集团 分 离子 团 来 实现 图 着 
色 。 一 个 集团 (clique) 是 一 个 图 ， 它 的 每 一 个 结 点 与 图 中 其 他 所 有 结 点 均 有 一 条 弧 相 连 。 一 
个 分 离子 团 (clique separator) 是 一 个 子 图 ， 它 本 身 是 一 个 集团 ， 且 从 图 中 删除 它 将 导致 包含 
它 的 图 被 分 割 成 两 个 以 上 的 不 相连 子 图。 一 个 分 离子 团 是 最 大 的 ， 如 果 图 中 不 存在 将 其 加 到 这 
个 分 离子 团 可 产生 一 个 更 大 集团 的 结 点 。 至 多 具有 R 个 结 点 的 最 大 分 离子 团 有 两 个 有 吸引 力 的 
ER: 它们 可 将 一 个 程序 划分 成 若干 可 独立 进行 寄存 器 分 配 的 部 分 ， 并 且 可 通过 考察 代码 来 构 
造 它们 ， 而 无 需 实际 构造 完整 的 冲突 图 。 

在 20.3 节 ， 我 们 将 讨论 一 种 对 数组 元 素 进行 寄存 器 分 配 的 方法 。 数 组 元 素 对 性 能 有 显著 的 
影响 ， 尤 其 是 对 于 反复 迭代 的 数值 计算 。 在 19.6 节 ， 我 们 将 讨论 运行 时 和 编译 时 的 过 程 间 寄 存 
器 分 配方 法 。 

如 果 寄 存 器 分 配 以 这 种 方式 指派 寄存 器 ， 即 当 一 个 寄存 器 一 旦 自由 就 立刻 重新 使 用 它 ， 而 
不 管事 实 上 是 否 需 要 这 样 紧迫 ， 则 这 种 寄存 器 分 配 会 不 必要 地 降低 有 效 的 指令 级 并 行 性 。 这 种 
情况 可 以 通过 硬件 或 软件 寄存 器 重 命名 ( 见 17.4.5 节 )， 并 且 ， 部 分 地 ， 通 过 循环 地 指派 寄存 器 
而 不 是 只 要 它们 一 自由 便 重 新 使 用 它们 而 得 到 减轻 。 另 一 种 方法 是 将 寄存 器 分 配 和 指令 调度 合 
为 一 遍 。 有 些 研究 者 一 直 在 研究 将 这 两 遍 合 为 一 遍 并 达到 比 两 者 效果 都 要 好 的 方法 。Bradlee、 
Eggers 和 Henry[BraE91] 以 及 Pinter [Pint93] 在 这 方向 的 研究 有 所 进展 。 


16.6 小 结 


这 一 章 的 内 容 涵盖 了 寄存 器 分 配 和 指派 ， 对 于 所 有 程序 而 言 ， 它 们 都 属于 最 重要 的 优化 范 
畴 。 我 们 已 了 解 到 寄存 器 分 配 应 当 在 低级 代码 级 别 来 进行 ， 或 中 间 形 式 或 汇编 语言 ， 因 为 所 有 
的 取 、 存 及 地 址 计算 都 必须 明显 地 表示 出 来 。 
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我 们 的 讨论 从 一 种 古老 然而 快速 且 相 当 有 效 的 局 部 方法 开始 ， 这 种 方法 根据 使 用 次 数 和 循 
环 代 套 层次 来 决定 哪些 对 象 应 当 放 在 寄存 器 中 。 然 后 详细 地 介绍 了 一 种 更 有 效 的 方法 ， 即 图 着 
色 全 局 寄存 器 分 配 ， 并 简要 地 介绍 了 另 一 种 也 使 用 图 着 色 ， 但 效果 一 般 要 差 一 些 的 方法 。 我 们 
还 间接 地 提 及 了 一 种 利用 装 包 的 方法 ， 两 种 相对 较 新 的 利用 过 程控 制 树 来 指导 分 配 和 溢出 判定 
的 方法 ， 以 及 另 一 种 利用 最 大 集团 分 离子 团 的 新 方法 。 

我 们 已 知道 图 着 色 寄存 器 分 配 通 常 能 得 到 非常 有 效 的 分 配 ， 并 且 对 编译 速度 不 会 有 太 大 的 
开销 。 图 着 色 寄 存 器 分 配 在 图 中 用 结 点 代表 可 分 配 的 对 象 〈 符 号 寄存 器 ) 和 真实 寄存 器 ， 用 弧 
代表 它们 之 间 的 冲突 。 之 后 它 尝试 用 其 数目 与 可 用 寄存 器 个 数 相等 的 颜色 来 对 结 点 着 色 ， 使 得 
每 一 个 结 点 被 指派 一 种 与 它 的 邻居 不 同 的 颜色 。 如 果 不 能 做 到 这 一 点 ， 则 引入 代码 将 符号 寄存 
器 溢出 到 存储 器 ， 并 在 需要 时 再 将 溢出 的 值 重新 取 回 到 寄存 器 中 。 重 复 这 个 过 程 直到 着 色 的 目 
的 达到 为 止 。 

从 这 一 章 我 们 有 以 下 一 些 收获 : 

1. 存在 着 相当 有 效 的 局 部 寄存 器 分 配方 法 ， 这 些 方法 所 需 的 编译 时 间 非 常 少 ， 并 且 适 合 于 
非 优化 的 编译 器 。 

2. 存在 着 一 种 非常 有 效 的 图 着 色 全 局 寄存 器 分 配方 法 ， 它 比 局 部 分 配方 法 的 代价 要 大 ， 且 
适合 于 优化 编译 器 。 

3. 其 他 方法 的 研究 仍 在 继续 ， 这 些 方法 可 能 产生 更 有 效 的 分 配器 一 一 可 以 不 需要 图 着 色 那 
么 大 的 开销 一 一 这 种 分 配器 可 以 将 寄存 器 分 配 与 指令 调度 结合 在 一 起 而 不 会 有 负面 影响 。 

图 16-47 中 的 黑体 字 指出 了 图 着 色 寄 存 器 分 配 在 激进 优化 编译 器 中 的 位 置 。 

第 19 章 讨论 了 有 关 寄存 器 分 配 的 更 深 内 容 ， 包 括 过 程 间 寄 存 器 分 配 的 方法 。 这 些 方法 中 有 
一 些 在 汇编 语言 级 别 以 下 的 代码 上 工作 ， 即 针对 可 重 定位 模块 ， 这 种 可 重 定位 模块 注 有 数据 使 
用 样式 的 信息 。 此 外 ， 为 了 改善 寄存 器 分 配 ， 在 其 他 优化 中 还 设计 了 数组 引用 的 标量 替代 
(20.3 节 )， 以 及 聚合 量 的 标量 替代 (12.247). 


16.7 进一步 阅读 


{Frei74] 介 绍 了 Freiburghouse 的 局 部 寄存 器 分 配 。[LowM69] 介绍 了 IBM 360 和 370 系 统 上 的 
Fortran H 编 译 器 。 介 绍 BLISS 语 言 的 是 [WulR71]，[WulJ75] 中 介绍 了 关于 此 语言 的 PDP-11 编 译 器 。 

如 Kennedy 在 [Kenn71] 中 所 报告 的 ，Cocke 注 意 到 了 可 将 全 局 寄存 器 分 配 看 成 图 着 色 问 题 ， 
Chaitin 用 于 IBM 370 PL/I 实 验 编 译 器 中 的 原始 图 着 色 分 配器 的 有 关 介 绍 见 [ChaA81]，[Chai82] 
介绍 了 此 分 配器 用 于 PL.8 编 译 器 的 修改 版 本 ， 其 中 包含 了 若干 精巧 的 处 理 。 证 明 一 般 图 着 色 问 
题 是 NP - 完全 的 内 容 可 在 [GarJ79] 中 找到 。 在 [BriC89] 中 可 找到 Briggs、Cooper、Kennedy 和 
Torczon 等 人 关于 乐观 启发 式 的 最 初 讨论 ，[Brig92] 中 也 讨论 了 它们 。 这 些 讨论 构 成 了 当前 考虑 . 
启发 式 时 的 出 发 点 。Bernstein 等 人 关于 着 色 启 发 式 的 探讨 是 在 [BerG89] 中 找到 的 。Nickerson 的 
处 理 寄存 器 偶 对 和 更 大 的 寄存 器 成 组 的 方法 见 [Nick90]。 

Chow 和 Hennessy 发 明了 基于 优先 级 的 图 着 色 方法 〈( 见 [ChoH84] 和 {fChoH90])， 最 初 他 们 认 
为 可 以 将 分 配 处 理 过 程 分 为 局 部 遍 和 全 局 遍 ， 后 来 发 现 这 是 不 需要 的 。Larus 和 Hilfinger 的 寄存 
器 分 配器 [LarH86] 使 用 了 基于 优先 级 的 图 着 色 方 法 的 一 种 变 体 。 

Briggs 对 他 自己 的 分 配器 与 Chow 的 基于 优先 级 的 分 配器 所 作 的 比较 是 在 [Brig92] 中 找到 的 。 

[CalK91] 中 分 别 介 绍 了 Callahan 和 Koblenz， 以 及 Knobe 和 Zadeck 的 利用 过 程控 制 树 来 指导 
溢出 判别 的 方法 。Gupta、Soffa 和 steele 等 人 利用 最 大 分 离子 困 来 执行 寄存 器 分 配 的 介绍 见 
[GupS89]. 
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Bradlee, 


#16 $ 


Eggers 和 Henry [BraE91]LA & Pinter [Pint93] 讨 论 了 将 寄存 器 分 配 和 指令 调度 合并 


成 一 遍 的 编译 方法 。 


16.8 练习 


16.1 


16.2 


16.3 


16.4 


16.5 


ADV 16.6 


16.7 
16.8 


ADV 16.9 
RSCH 16.10 


解释 如 何 使 用 图 16-12 中 的 Build_AdjMtx() 和 图 16-15 中 的 
Coalesce_Registers() 保 证 在 过 程 调 用 之 前 将 参数 值 传送 到 适当 的 寄存 器 
中 ， 并 且 在 被 调用 过 程 内 ， 将 传递 到 寄存 器 中 的 这 些 参 数 转移 到 对 应 的 工作 寄存 
器 中 。 

解释 如 何 使 用 图 16-12 中 的 Buila_AajMtx() 和 图 16-15 中 的 
Coalesce_Registers () 构造 机 器 指令 ， 要 求 特定 源 寄存 器 和 目的 寄存 器 能 够 
使 其 操作 数 和 结果 具有 这 种 寄存 器 。 

解释 如 何 使 用 图 16-12 中 的 Builda_AdjMtx() 和 图 16-15 中 的 
Coalesce_Registers () ,使 得 要 求 其 结果 在 一 个 寄存 器 中 ， 并 且 一 个 操作 数 
也 必须 在 该 寄存 器 中 的 两 地 址 指令 能 根据 需要 处 理 。 

修改 图 16-15 的 代码 使 它 能 够 保证 为 那 种 需要 一 对 寄存 器 用 于 保存 结果 或 操作 数 
的 指令 能 指派 到 一 对 寄存 器 。 

修改 图 16-16 的 算法 compute_Spill_costs(), 使 它 生 成 游 出 代码 时 能 够 考虑 
到 这 种 情况 : 如 果 一 个 已 溢出 的 值 在 同一 基本 块 中 使 用 多 次 ， 并 且 在 块 中 最 后 一 
次 使 用 之 前 没有 被 杀 死 ， 则 这 个 值 在 此 基本 块 中 只 需要 取 一 次 。 
推广 图 16-17 的 图 ， 对 于 每 一 个 R， 产 生 一 个 最 小 的 〈 即 结 点 个 数 最 少 的 ) 可 R 色 
着 色 、 但 用 度 <R 规 则 却 不 能 判别 是 R 色 着 色 的 图 。 解 释 怎 样 推广 它 。 

对 于 一 个 具有 w 个 网 的 过 程 ， 其 (a) 邻 接 和 矩阵 和 (b) 邻 接 表 所 需要 的 空间 有 多 大 ? 
修改 图 16-24 中 的 过 程 Cen_Spi1i1l_Code () ， 使 它 能 处 理 16.3.7 节 末尾 提 到 的 问 
题 ， 即 (a) 使 值 重 新 回 到 寄存 器 ，(b) 删 除 复写 指令 ， 以 及 (c) 已 溢出 的 值 在 基本 块 
内 的 多 次 使 用 。 注 意 在 图 16-41 中 ， 假 如 我 们 不 谥 出 s7 ， 而 是 在 调用 print () 之 
前 再 形成 它 ， 本 可 以 生成 更 好 的 代码 。 

开发 16.3.12 节 提 及 的 确定 在 何 处 使 值 重新 回 到 寄存 器 是 有 益 的 数据 流 分 析 。 

阅读 Callahan 和 Koblenz [CalK91]，Knobe 和 Zadeck[Knoz92]， 或 Gupta、Soffa 和 
Steele [GupS89] 的 论文 ， 并 将 他 们 的 方法 与 本 章 讨论 的 图 着 色 方 法 进行 对 比 。 
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这 一 章 我 们 关注 的 是 为 改善 程序 性 能 而 对 指令 进行 调度 或 重 排 的 各 种 方法 ， 对 于 大 多 数 机 
器 和 大 多 数 程序 而 言 ， 这 是 最 重要 的 优化 之 一 。 这 些 方法 包括 基本 块 调 度 、 分 支 调度 、 跨 基本 
块 调 度 、 软 流水 、 踪 迹 调度 及 渗透 调度 。 本 章 也 涵盖 了 与 超标 量 实 现 有 关 的 优化 。 

早 在 RISC 机 器 出 现 之 前 就 已 存在 流水 线 机 器 ， 但 是 它们 的 流水 线 一 般 隐藏 在 对 用 户 指令 
进行 解释 的 微 引 苟 内。 为 了 使 这 种 机 器 的 速度 最 大 化 ， 编 写 微 代 码 的 关键 是 尽 可 能 地 使 得 多 条 
指令 重 全 执行。 此 外 ， 用 户 编 写 的 代码 也 应 当 更 好 地 利用 微 引 擎 中 的 流水 线 ， 否 则 就 不 能 发 挥 
流水 线 的 优势 。Rymarczyk [Ryma82] 的 经 典 论文 为 汇编 语言 程序 员 编 写 流 水 线 处 理 机 (如 
IBM/370 系 统 ) 的 代码 提供 了 指南 。 当 前 ， 越 来 越 多 的 CISC 实 现 ， 如 Intel 的 Pentium 和 Pentium 
Pro， 也 大 量 使 用 流水 线 。 为 了 最 大 限度 地 发 挥 RISC 处 理 器 以 及 当前 和 未 来 的 CISC 处 理 器 的 性 
能 ， 代 码 调度 优化 至 为 关键 。 

指令 调度 算法 戎 省 于 徽 代 码 压缩 和 作业 调度 的 研究 ， 但 是 这 三 个 问题 有 很 大 的 不 同 ， 并 且 
指令 调度 中 使 用 的 许多 技术 相对 较 新 。 

基本 块 调度 和 分 支 调度 的 结合 是 本 章 讨论 的 最 简单 的 方法 。 这 种 方法 对 每 一 个 基本 块 和 每 
一 个 分 支 独立 地 进行 操作 ， 它 实现 起 来 最 简单 ， 并 且 能 够 使 代码 速度 得 到 相当 大 的 改善 ， 常 党 
能 加 快 10% ， 甚 至 更 高 。 跨 基本 块 调度 是 对 基本 块 调度 的 一 种 改进 ， 它 每 次 考虑 由 多 个 基本 块 
组 成 的 一 棵 树 ， 并 且 可 以 将 指令 从 一 个 基本 块 移 到 另 一 个 基本 块 。 

软 流 水 专门 针对 循环 体操 作 ， 因 为 循环 是 大 多 数 程序 花 时 间 最 多 的 部 分 ， 因 此 ， 它 能 使 性 

能 有 很 大 的 改善 ， 常 常 能 提高 一 倍 以 上 。 
有 三 种 转换 能 显著 改善 基本 块 调度 效果 ， 尤 其 是 软 流水 效果 的 转换 ， 它 们 是 : 循环 展开 、 
变量 扩张 和 寄存 器 重 命名 。 循 环 展开 创建 一 个 较 长 的 基本 块 ， 并 为 循环 体内 的 跨 基 本 块 调度 提 
供 机 会 。 变 量 扩张 将 已 展开 的 循环 体 中 的 变量 扩张 成 每 个 循环 体 副本 有 一 个 该 变量 的 副本 ; 08 
环 执行 完成 之 后 ， 再 将 这 些 副 本 的 值 合并 到 一 起 。 寄 存 器 重 命名 是 一 种 转换 ， 它 通过 改变 代码 
块 内 (或 更 大 的 代码 单位 内 ) 寄存 器 的 使 用 ， 删 除 由 于 不 必要 的 立即 重复 使 用 某 些 寄存 器 而 导 
致 的 依赖 和 资源 限制 ， 从 而 改善 这 两 种 调度 方法 的 效果 。 

在 进行 软 流水 优化 的 编译 器 中 ， 重要 的 是 要 尽 可 能 地 使 得 软 流水 的 循环 体能 有 效 地 执行 循 
环 展开 、 变 量 扩张 和 寄存 器 重 命名 。 如 果 编 译 器 不 做 软 流水 优化 ， 则 循环 展开 和 变量 扩张 应 当 
在 编译 处 理 的 较 早 阶段 进行 ;我们 建议 在 图 17-40 的 C4 框 中 的 死 代码 删除 和 代码 提升 之 间 进 行 。 

踪迹 调度 和 渗透 调度 是 两 种 全 局 ( 即 过 程 范围 内 的 ) 代码 调度 方法 ， 对 于 某 些 类 型 的 程序 
和 体系 结构 ， 特 别 是 高 度 超标 量 的 和 VLIW 的 机 器 ， 它 们 都 能 取得 非常 好 的 效果 。 

本 章 讨论 的 所 有 转换 ， 除 了 踪 迹 调度 和 渗透 调度 之 外 ， 都 属于 编译 器 在 编译 一 个 程序 时 最 


后 被 执行 的 几 种 优化 。 不 过 ， 后 面 两 种 方法 最 好 构造 成 优化 处 理 的 驱动 程序 ， 因 为 在 过 程 的 结 


构 上 它们 可 以 做 出 范围 相当 广泛 的 选择 ， 并 且 它们 通常 也 能 通过 调用 其 他 优化 来 修改 代码 ， 从 
而 允许 更 有 效 的 调度 并 从 中 受益 。 


17.1 指令 调度 
因为 许多 机 器 (包括 所 有 RISC 的 实现 和 从 80486 开 始 的 Intel 体 系 结构 实现 ) 都 是 流水 线 的 ， 
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并 且 对 用 户 至 少 暴 露 了 流水 线 的 某 些 方面 ， 因 此 ， 用 一 种 能 够 更 好 地 利用 体系 结构 流水 线 特点 
的 方式 来 安排 这 类 机 器 的 代码 就 很 重要 。 例 如 ， 考 虑 图 17-1a 中 的 LIR 代 码 。 假 设 每 一 条 指令 需 
要 1 拍 ， 但 这 两 种 情况 除外 : (1) 对 于 从 内 存 取 到 寄存 器 的 值 ， 使 用 该 值 需要 额外 的 一 拍 ; (2) 
分 支 到 达 它 的 目的 地 需要 2 拍 ， 但 是 可 以 在 分 支 的 延迟 档 中 放置 一 条 指令 来 利用 第 2 拍 。 如 果 硬 
件 具 有 互 锁 ， 则 图 17-1a 中 的 指令 能 正确 执行 ， 并 且 执 行 它 需要 7 拍 。 其 中 ， 在 第 2 条 和 第 3 条 指 
令 之 间 有 一 拍 的 停顿 ， 因 为 不 能 立即 使 用 由 第 2 条 指令 取 到 *3 的 值 。 还 有 ， 分 支 指令 包含 未 能 
利用 的 一 拍 ， 因 为 在 它 的 延迟 档 中 有 一 条 nop 。 另 一 方面 ， 如 果 我 们 将 这 些 指令 重 排 成 如 图 
17-1b 所 示 ， 这 段 代码 仍 能 正确 执行 ， 但 它 只 需要 5 拍 。 现在， 第 3 条 指令 没有 使 用 前 一 条 指令 
取 的 值 ， 第 5 条 指令 的 执行 与 分 支 指令 同时 完成 。 


r2 < [r1] (4) 
r8 < [r1+4] (4) 
r4 © r2 + r3 


r2 «- [ri](4) 
r3 € [ri*4] (4) 
rb < r2 - 1 
r5 < r2-1 
goto Li 

nop 


a) b) 


图 17-1 a) 一 个 LIR 代 码 基本 块 ，b) 它 的 一 个 更 好 的 调度 ， 其 中 假定 goto 之 后 有 一 个 延迟 槽 ， 
并 且 在 取 指 令 和 所 取 之 值 达 到 目的 寄存 器 成 为 可 用 之 间 有 1 拍 的 延迟 . 


有 些 体系 结构 没有 互 锁 ， 如 MIPS 的 第 一 代 商 业 版 本 ， 因 此 图 17-1a 的 代码 将 不 能 正确 执行 一 
指令 2 所 取 的 值 要 到 指令 3 已 读 过 r3 之 后 才能 到 达 r3。 在 关于 指令 调度 的 讨论 中 ， 我 们 忽略 这 
种 可 能 性 ， 因 为 当前 所 有 的 商业 体系 结构 都 有 互 锁 。 

指令 调度 涉及 到 了 若干 问题 ,其 中 两 个 最 基本 的 问题 是 ,如何 填 充分 支 延迟 槽 (17.1.1 节 )， 
以 及 如 何 调度 基本 块 内 的 指令 使 其 执行 时 间 最 短 。 我 们 用 5 小 节 的 篇 幅 介 绍 后 一 问题 ， 即 17.1.2 
节 论 述 表 调 度 ，17.1.3 节 介绍 指令 调度 器 的 自动 生成 ，17.1.4 节 与 超标 量 实现 有 关 ，17.1.5 节 讨 
论调 度 与 寄存 器 分 配 之 间 的 相互 作用 ，17.1.6 节 讨论 跨 基本 块 的 调度 。 

在 这 几 节 之 后 我 们 考虑 软 流水 和 其 他 更 激进 的 调度 方法 。 


17.1.1 分 支 调度 


分 支 调 度 (branch scheduling) 指 的 是 两 件 事 : (D 用 一 条 有 用 的 指令 填充 分 支 指 令 之 后 的 
延迟 档 ， 和 (2) 隐藏 处 于 比较 指令 和 根据 比较 结果 进行 分 支 的 指令 之 间 的 延迟 。 

分 支 的 实现 在 不 同 的 体系 结构 之 间 变 化 很 大 。 有 些 体系 结构 一 一 如 PA-RISC、SPARC 和 和 
MIPS， 具 有 含 一 个 (很 少 有 的 情形 ， 如 MIPS 含 2 个 ) 显 式 延迟 权 的 带 延 迟 的 分 支 指令 。 延 迟 梢 
可 用 有 用 的 指令 或 nop 指 令 来 填充 ， 但 后 者 浪费 执行 时 间 。 有 些 体系 结构 ， 如 POWER 和 
PowerPC， 要 求 在 条 件 判 断 指 令 的 执行 和 使 用 此 条 件 的 分 支 指令 发 生 转 移 之 间 延 迟 车 干 拍 ， 如 
果 在 分 支 执行 之 前 所 需要 的 时 间 还 未 过 去 ， 处 理 机 将 在 分 支 指令 停顿 剩余 的 延迟 。Intel 386 的 高 
端 成 员 ， 如 Pentium 和 Pentium Pro， 也 要 求 在 判断 一 个 条 件 和 根据 此 条 件 分 支 之 间 有 延迟 时 间 。 

迁 迟 杠 和 用 有 用 的 指令 填充 它们 

有 些 分 支 结构 提供 可 废弃 延迟 槽 中 指令 的 分 支 指令 ， 这 种 分 支 指令 根据 是 否 发 生 转 移 以 及 
特定 分 支 指令 的 定义 细节 ， 决 定 是 执行 延迟 槽 中 的 指令 还 是 跳 过 它 。 在 两 种 情形 下 ， 这 条 延迟 
槽 中 的 指令 都 占用 1 拍 ， 但 是 如 果 可 以 根据 分 支 走 一 条 路 径 还 是 走 另 一 条 路 径 而 作废 放置 在 延 
迟 槽 中 的 指令 时 ， 就 能 够 比较 容易 地 填充 延迟 槽 。 


goto L1 
rá «- r2 + r3 
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在 许多 RISC 中 ， 调 用 指令 也 是 有 延迟 的 ， 而 在 CISC 中 ， 只 有 当 不 能 在 离 分 支 足够 远 的 地 
方 计算 转移 地 址 以 便 从 目标 地 址 预 取 指 令 时 ， 调 用 指令 才 有 延迟 。 

为 了 具体 起 见 ， 我 们 用 SPARC 中 的 分 支 延 迟 方法 作为 基本 模型 ， 它 的 分 支 延迟 方法 实质 上 
包含 了 其 他 体系 结构 的 所 有 基本 特征 。SPARC 有 带 一 拍 延迟 的 条 件 分 支 指令 ， 这 一 拍 延迟 可 以 
通过 设置 指令 中 的 一 位 而 使 它 作 废 。 作 废 (nullification) 导致 延迟 档 中 的 指令 仅 在 一 个 不 是 
“总 是 分 支 ” (branch always) 的 条 件 分 支 指令 发 生 转移 时 才 执行 ， 而 对 于 “总 是 分 支 ”的 转移 
指令 则 不 执行 。 跳 转 指 令 ( 它 是 无 条 件 的 ) 和 调用 指令 有 一 拍 不 能 作废 的 延迟 。 浮 点 比较 指令 
和 使 用 这 个 比较 结果 的 浮 点 分 支 指令 之 间 必 须 至 少 有 一 条 不 是 浮 点 比较 的 指令 。SPARC-V9 含 
有 与 MIPS 和 PA-RISC 体 系 结构 中 类 似 的 可 以 计算 分 支 条 件 的 分 支 指令 ， 以 及 条 件 传送 指令 ， 这 
种 条 件 传 送 指令 在 某 些 情况 下 删除 了 对 (向 前 ) 分 支 指令 的 需要 。 

填充 分 支 延 迟 档 最 好 使 用 来 自 该 分 支 指令 所 结束 的 这 个 基本 块 中 的 指令 。 为 了 实现 这 个 目 
标 ， 我 们 可 以 修改 下 面 给 出 的 基本 块 调度 算法 ， 首 先 检 查 该 基本 块 的 依赖 DAG 中 是 否 有 任何 
叶子 结 点 能 够 放 到 它 最 后 一 条 分 支 指令 的 延迟 槽 中 。 这 种 指令 必须 满足 如 下 条 件 : (0) 它 必 须 
是 与 分 支 指令 可 置换 的 一 一 即 它 既 不 能 是 确定 分 支 条 件 的 指令 ， 也 不 能 是 改变 分 支 地 址 计算 使 
用 的 寄存 器 之 值 或 分 支 所 使 用 的 任何 其 他 资源 〈 如 条 件 代码 域 ) 的 指令 ?; (2) 它 本 身 不 能 是 
分 支 指令 。 如 果 在 当前 基本 块 中 存在 若干 可 选 的 指令 能 够 填充 此 延迟 档 ， 我 们 选择 那 种 只 需要 
一 拍 的 指令 (取决 于 分 支 转移 到 的 那 条 指令 或 分 支 下 面 的 这 条 指令 ) ， 而 不 是 有 延迟 的 取 数 指 
令 或 其 他 可 能 使 流水 线 停顿 的 指令 。 如 果 当 前 基本 块 中 有 可 用 的 指令 , 但 没有 只 需 一 拍 的 指令 ， 
我 们 选择 延迟 可 能 性 最 小 的 指令 。 

下 面 ， 假 设 我 们 正在 处 理 一 条 件 分 支 指令 ， 同 时 关注 该 分 支 的 目标 基本 块 和 它 下 面 的 这 个 
基本 块 。 如 果 当 前 基本 块 没有 可 以 放置 在 分 支 延迟 槽 中 的 指令 ， 下 一 步 是 构造 分 支 目标 基本 块 
和 它 下 面 这 个 基本 块 的 DAG， 并 尝试 找 出 那 种 同时 作为 这 两 个 DAG 的 根 而 出 现 的 指令 ; 或 者 
那 种 在 一 个 分 支 中 出 现 ， 并 可 以 通过 寄存 器 重 命名 (参见 17.4.5 节 ) 而 移 到 延迟 槽 的 指令 。 如 
果 还 是 没有 找到 这 种 指令 ， 接 下 来 的 选择 是 在 目标 基本 块 中 寻找 满足 下 列 条 件 的 指令 : CEH 
标 基 本 块 DAG 的 一 个 根 ， 并 且 可 以 迁移 到 带 有 作废 位 的 分 支 指令 的 延迟 槽 中 ， 使 得 当 分 支 走 
的 是 下 降 路 径 时 该 指令 不 会 起 作用 。 c 

填充 无 条 件 分 支 指令 或 跳 转 指令 的 延迟 档 ， 其 处 理 与 条 件 分 支 指令 的 处 理 类 似 。 对 于 
SPARC 的 “总 是 分 支 "， 当 设置 了 作废 位 时 ， 延 迟 槽 中 的 指令 不 起 作用 。 对 于 跳 转 指令 ， 延 迟 
槽 中 的 指令 总 是 被 执行 ， 并 且 目 标 地 址 由 两 个 寄存 器 之 和 给 出 。 图 17-2 概 括 了 上 面 的 规则 。 

填充 调用 指令 的 延迟 梢 与 填充 分 支 指令 的 延迟 槽 类 似 ， 但 约束 要 多 一 些 。 但 一 般 至 少 会 存 
在 一 条 取 参 数值 或 复制 参数 值 到 某 个 寄存 器 的 指令 ， 并 且 这 种 指令 几乎 总 是 可 以 与 调用 指令 交 
换 位 置 。 如 果 在 调用 指令 之 前 没有 能 够 放 到 其 延迟 槽 中 的 指令 ， 则 在 调用 指令 之 后 可 能 有 属于 
同一 个 基本 块 的 、 可 以 放 到 其 延迟 槽 的 指令 。 不 过 这 时 需要 小 心 ， 因 为 被 调用 的 过 程 可 能 不 一 
定 会 返回 到 调用 点 ， 因 此 ， 放 到 调用 之 后 的 那 条 指令 必须 是 那 种 当 控 制 从 交错 返回 点 继续 执行 
时 ， 不 会 影响 执行 效果 的 指令 。 如 果 在 含有 调用 指令 的 基本 块 中 根本 不 存在 可 以 放 到 延迟 横 的 
指令 ， 下 一 步 可 寻找 的 地 方 是 被 调用 过 程 。 当 然 ， 是 否 能 得 到 被 调用 过 程 的 代码 取决 于 编译 过 
程 的 结构 ， 以 及 在 什么 时 候 执 行 分 支 调度 。 假 设 能 得 到 被 调用 过 程 的 代码 ， 那 么 最 简单 的 选择 
是 被 调 过 程 的 第 一 条 指令 ， 因 为 可 以 将 它 复制 到 延迟 模 ， 并 且 可 以 将 调用 指令 的 目的 地 址 修改 


© SPARC 不 会 有 这 个 问题 ， 因 为 条 件 分 支 的 目标 地 址 是 PC 值 和 一 个 直接 数 之 和 ， 租 是 其 他 体系 结构 可 能 会 存 
在 这 种 问题 。 
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为 其 后 一 条 指令 。 其 他 的 选择 需要 更 多 的 协调 ， 因 为 可 能 存在 对 一 个 过 程 的 多 个 调用 ， 而 这 些 
调用 之 间 对 延迟 槽 的 需要 可 能 相互 冲突 。 


条 件 分 文 指令 ? 












包含 此 分 支 指令 的 
基本 块 中 有 指令 J 
可 填充 延迟 槽 吗 ? 






















| 该 指令 “永远 不 
RARUS 在 两 个 后 继 中 有 会 分 支 " 一 不 
公共 指令 J 可 填 | | 基本 块 有 指令 J 可 | “| 做 任何 动作 





FEE IR HOS? 填充 延迟 槽 吗 ? 


BJ OT CIE REG 
吗 ? 







设置 分 支 废弃 位 


© 


延迟 槽 
图 17-2 填充 分 支 延迟 槽 的 处 理 流程 图 
对 于 其 他 所 有 失败 情形 ， 我 们 用 nop 来 填充 分 支 延迟 槽 。 
停顿 的 时 钟 周期 以 及 用 有 用 的 指令 填充 它们 
有 些 机 器 一 如 POWER，PowerPC 和 Intel 386 体 系 结构 的 各 种 实现 一 一 要 求 在 条 件 判断 指 
令 和 使 用 该 条 件 进行 分 支 转移 的 指令 之 间 延 迟 若干 拍 ， 如 果 在 执行 分 支 指令 时 ， 所 要 求 的 延迟 
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时 间 还 没有 过 去 ， 处 理 机 将 在 此 分 支 指令 停顿 ， 直 到 剩余 的 延迟 消逝 。SPARC 的 浮 点 比较 指令 
和 依赖 于 它们 的 条 件 分 支 指令 也 要 求 我 们 调度 无 关 的 指令 放 在 它们 之 间 。 

这 种 情况 最 好 由 基本 块 调度 来 处 理 。 我 们 在 构造 基本 块 的 DAG 时 注意 到 ， 以 条 件 分 支 结束 
的 基本 块 ， 其 条 件 是 在 基本 块 内 计算 的 。 于 是 在 调度 处 理 过 程 中 ， 只 要 比较 指令 满足 有 关 的 依 
赖 就 应 尽早 地 放置 它 。 
17.1.2 RWE 


基本 块 调度 的 目的 是 构造 DAG 的 拓扑 序 ， 使 得 (1) 生 成 同样 的 结果 ，(2) 基 本 块 的 执行 时 间 
尽 可 能 少 。 

在 一 开始 我 们 应 注意 ， 基 本 块 调度 问题 是 NP 困难 问题 ， 即 使 是 非常 简单 的 形式 也 如 此 。 
因此 ， 我 们 必须 寻找 有 效 的 启发 式 方法 ， 而 不 是 精确 的 方法 。 我 们 给 出 的 这 个 表 调 度 算法 ， 其 
运行 时 间 在 景 坏 的 情况 下 是 O(n”)， 其 中 n 是 基本 块 中 的 指令 条 数 ， 但 实际 中 它 的 运行 时 间 通 常 
是 线性 的 。 表 调度 的 总 体 性 能 一 般 受 构造 依赖 DAG (参见 9.2 节 ) 的 时 间 控 制 ， 构 造 依 赖 DAG 
的 时 间 在 最 坏 的 情况 下 是 O(n”)， 但 在 实际 中 通常 是 线性 的 或 稍微 低 一 点 。 

现在 ， 假 设 我 们 有 一 个 如 9.2 节 所 述 的 关于 基本 块 的 依赖 DAG。 在 讨论 它 的 调度 方法 之 前 ， 
我 们 必须 先 考虑 过 程 调 用 指令 的 处 理 。 如 果 所 考虑 的 体系 结构 的 调用 指令 具有 延迟 模 ， 则 需要 选 
择 一 条 指令 来 填充 它 ， 最 好 是 选择 这 条 调用 指令 之 前 的 指令 《如 17.1.1 节 所 讨论 的 那样 )。 一 个 调 
用 上 典型 地 隐 含 着 一 组 需要 调用 者 在 调用 之 前 保护 和 调用 结束 之 后 恢复 的 寄存 器 。 另 外 ， 如 果 人 缺乏 
过 程 间 数 据 流 分 析 和 别名 分 析 (参见 19.2 节 和 19.4 节 )， 我 们 就 无 法 知道 被 调用 过 程 会 影响 哪些 存 
储 单元 ， 除 非 被 编译 语言 的 语义 提供 保证 。 例 如 ， 我 们 可 能 只 知道 调用 者 的 局 部 变量 对 被 调用 者 
是 不 可 见 的 (如 Fortran)， 因 此 ， 位 于 调用 指令 之 前 并 且 能 够 与 它 置换 的 存储 器 引用 指令 就 很 少 。 
我 们 可 以 将 调用 指令 看 成 是 基本 块 的 边界 ， 并 为 调用 之 前 的 指令 和 调用 之 后 的 指令 建立 分 开 的 
DAG， 但 这 样 做 会 减少 指令 重 排 的 自由 度 ， 因 而 导致 较 慢 的 代码 。 可 选 的 另 一 种 方法 是 ， 我 们 可 
以 在 conflict () 函数 (参见 9.2 节 ) 的 定义 中 将 隐 含 的 调用 者 保护 的 寄存 器 考虑 进来 ， 顺 序 排列 
与 一 个 调用 有 关 的 所 有 其 他 存储 访问 (或 至 少 可 能 被 影响 到 的 存储 访问 )， 特 别 标示 出 那些 可 以 
放 到 调用 指令 延迟 槽 的 指令 ， 并 将 已 生成 的 位 于 调用 指令 之 后 的 nop 合 并 到 这 条 调用 指令 的 结 点 
中 。 用 于 填充 延迟 槽 的 指令 最 好 选择 那 种 将 参数 值 传送 到 参数 传递 寄存 器 的 指令 。 例 如 ， 假 设 我 
们 有 图 17-3 的 LIR 人 代码， 并 且 寄 存 器 rl1 到 r7 用 于 传递 参数 。 我 们 用 星 号 标示 了 那些 可 移 到 调用 指 
令 延 迟 横 的 指令 所 对 应 的 结 点 。 于 是 ， 可 以 按 如 下 顺序 调度 这 个 基本 块 的 指令 : 

1, 3, 4, 2, 6 


并 且 ， 我 们 已 成 功 地 用 一 条 有 用 的 指令 替代 了 noPp。 


r8 < [r12+8] (4) 
ri< r8 + 1 
r2 « 2 


call ri4,r31 


nop 
r9 «ri *1 





a) b) 
617-3 a) 一 个 含 调用 的 基本 块 ，b) 它 的 依赖 DAG。 用 星 号 标示 的 结 点 对 应 的 指令 可 以 移 到 调用 延迟 模 
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有 若干 种 指令 级 转换 可 以 用 来 改善 指令 调度 的 自由 度 。 例 如 ， 图 17-4 的 两 个 序列 具有 相同 


的 效果 ， 但 在 特定 的 情况 下 ， 其 中 的 一 种 可 能 比 另 一 种 ld [r2*4],r3 
能 产生 更 好 的 调度 。 在 调度 中 通过 一 个 子 程序 来 识别 这 | add 4,r2,r2 ld [r2],r3 


两 种 情形 ， 并 使 得 可 对 这 两 种 选择 进行 尝试 ， 便 可 处 理 a) b) 

这 种 情况 ， 但 是 这 种 策略 需要 仔细 地 进行 控制 ， 否 则 它 17-4 两 组 等 价 的 指令 ， 它 们 在 实际 

会 导致 可 能 的 调度 选择 数 呈 指数 级 增长 。 中 都 能 为 指令 调度 提供 比 另 一 种 
AGAR (list) 方法 开始 时 先 从 DAG 的 叶 结 点 向 根 更 大 的 调度 自由 度 


结 点 进行 遍历 ， 在 遍历 过 程 中 ， 用 从 那个 结 点 到 基本 块 
末尾 的 最 大 可 能 延迟 来 标示 每 一 个 结 点 。 令 ExecTime (n) 是 执行 与 结 点 "相连 的 指令 所 需要 的 
拍 数 。 我 们 计算 函数 
Delay: Node > integer 
这 个 函数 的 定义 是 : 
ExecTime(n) 车 n 是 叶 结 点 


max Late Delay(s,m) 其 他 
meDagSucc(n, DAG) 


HH, DagSucc(i, DAG) EDAGHIN FARES, Late_Delay(n,m) = Latency 
(LInst (n), 2, LInst (m), 1) +Delay (m) 。 为 了 计算 函数 Delay O ， 我 们 如 图 17-5 所 示 进 行 
处 理 ， 其 中 


PostOrd: array [1..n] of Node 


是 依赖 DAG 中 m 个 结 点 的 后 序列 表 ，LInst (i) 是 DAG 中 结 点 ;所 表示 的 LIR 指 令 。 


Delay(n) = | 


Leaf: Node —> boolean 

Delay, ExecTime: Node —> integer 
LInst: Node —» LIRInst 

DagSucc: (Node x Dag) 一 > set of Node 
Heuristics: (set of Node) —» Node 


procedure Compute, Delay (nodes,PostOrd) 
nodes: in integer 
PostOrd: in array [1--nodes] of Node 
begin 
i, d, ld: integer 
n: Node 
for i := 1 to nodes do 
if Leaf(PostOrd[i]) then 
Delay(PostOrd[i]) := ExecTime(PostOrd[i]) 
else 
d := 0 
for each n € DagSucc(PostOrd[i] ,Dag) do 
ld := Latency(LInst(PostUrd[i]),2,LInst(n),1) + Delay(n) 


d := max (1d,d) 
od 


Delay(PostOrd[i]) := d 
fi 


od 
end il Compute. Delay 





图 17-5 计算 Delay () 函数 


接 下 来 ， 我 们 从 根 结 点 向 叶 结 点 方向 遍历 DAG， 在 遍历 过 程 中 选择 要 调度 的 结 点 ， 并 记录 
当前 时 间 (curTime， 这 个 时 间 值 从 0 开始 )， 和 每 一 个 结 点 为 避免 一 个 停顿 而 应 当 被 调度 的 
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最 早 时 间 (ETime [n] )。Sched 是 已 经 调度 过 的 结 点 的 序列 ; cands 是 在 每 一 点 的 候选 结 点 
集合 ， 候 选 结 点 是 那些 还 没有 被 调度 的 ， 但 其 前 驱 已 经 被 调度 了 的 结 点 。Cands 有 两 个 子 集 : 
MCands, ， 即 到 基本 块 末 尾 具 有 最 大 延迟 时 间 的 候选 者 集合 ;， 和 ECands ， 即 Mcands 中 最 早 开 
始 时 间 小 于 或 等 于 当前 时 间 的 结 点 集合 。 算 法 的 ICAN 代 码 在 图 17-6 中 给 出 。 该 算法 使 用 了 下 
面 一 些 函 数 : 

1. Post. Order (D) 返 回 一 个 其 元 素 是 DAG D 中 结 点 的 拓扑 序 的 数组 (该 数组 的 第 一 个 
元 素 的 索引 是 1， 并 且 最 后 一 个 元 素 的 索引 是 ID .Nodesl). 

2. Heuristics() 对 当前 候选 结 点 集合 应 用 我 们 选择 的 启发 式 方法 ; 注意 ， 为 了 做 出 选 
择 ， 它 可 能 还 需要 当前 候选 者 之 外 的 其 他 信息 。 l 

3. Inst (四 返回 依赖 DAG 中 结 点 夸 示 的 指令 。 

4. Latency (Í, np b, m) 与 9.2 节 的 定义 一 样 ， 是 在 1 执行 第 nj 个 时 钟 周期 时 开始 执行 1 的 
Fin, 个 时 钟 周期 所 需要 的 等 待 拍 数 。 

5. DagSucc (i, D) ， 它 已 在 前 面 说 明 过 。 
DAG = record {fNodes，Roots: set of Node， 


Edges: set of (Node x Node), 
Label: (Node x Node) 一 > integer) 























procedure Schedule (nodes , Dag ,Roots , DagSucc , DagPred, ExecTime) 
nodes: in integer 
Dag: in DAG 
Roots: in set of Node 
DagSucc, DagPred: in (Node x DAG) —> set of Node 
ExecTime: in Node —> integer 
begin 
i, j, m, n, MaxDelay, CurTime :- 0: integer 
Cands :- Roots, ECands, MCands: set of Node 
ETime: array [1--nodes] of integer 
Delay: Node 一 > integer 
Sched := []: sequence of Node 
Delay Conpute. Delay (nodes , Post Order (Dag) ) 
for i 1 to nodes do 
ETime[i] := 0 


od 
while Cands # @ do 
MaxDelay := -œ 


for each m € Cands do 
MaxDelay :- max(MaxDelay,Delay(m)) 


od 

MCands := (m € Cands where Delay(m) = MaxDelay} 
ECands := (m e MCands where ETime[m] s CurTime) 
if |MCands| = 1 then 


n := eMCands 

elif |ECands| = 1 then 
n := *ECands 

elif |ECands| > 1 then 


n := Heuristics(ECands) 
else 

n := Heuristics(MCands) 
fi 
Sched e- [n] 


图 17-6 指令 调度 算法 


UA 
oo 
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Cands -= (n) 
CurTime *- ExecTime(n) 
for each i € DagSucc(n,Dag) do 
if !3j € integer (Sched!j=i) & 
Ym € DagPred(i,Dag) (3j € integer (Schedij=m)) then 
Cands u- (i) 
fi 


ETime[i] := max(ETime[n], 
CurTime*Latency(LInst(n),2,LInst(i),1)) 


od 
od 
return Sched 
end |! Schedule 





图 17-6 (£&) 


作为 表 调 度 算 法 的 一 个 例子 ， 考 虑 图 17-7 的 依赖 DAG， 假 设 ExecTime (6) =2， 并 且 对 
其 他 所 有 结 点 x%，ExecTime (n) —1; 对 所 有 指令 偶 对 1 Al, Latency(I,, 2, I, 1) 1. 
Delay () 函数 是 


结 点 Delay 


1 5 
2 4 
3 4 
4 3 
5 1 
6 2 
并 且 调 度 的 处 理 步 最 如 下 : 
1. 开始 时 ，Ccurmime=0，candqds={1，3}，Schedq= [] ， 且 对 所 有 结 点 %，Etime [n] 
二 0。MaxDelay 的 值 是 4, MCands = ECands- (3). © 


2. 结 点 3 被 选 上 ; Sched- [3], Cands={1}, CurTime=1, 
ETime[4]-1. | 
3. 因为 (cands |=1， 其 内 只 有 一 个 结 点 1， 故 接 下 来 1 被 选择 。 (2) (3) 
因此 Sched= [3, 1], Cands={2}, CurTime-2, ETime[2] —1, 
ETime [4] =4. 
4. 因为 又 有 ICands | =1， 结 点 2 被 选择 ， 所 以 Sched= [3, 1, (4) 
2], Cands-(4), CurTime=3, ETime[4] =4. 
5. 再 次 有 1Cands1=1， 所 以 结 点 4 被 选择 ; 结果 Sched= [3， 
1, 2, 4], Cands={5, 6), CurTime=4, ETime[5]-6, (5) (6) 
ETime[6] =4. 图 17-7 依赖 DAG 之 例 
6. 现在 ，Maxpelavy=2 并 且 Mcandas= {6}， 所 以 结 点 6 被 选择; 
结果 有 Sched= [3, 1, 2, 4, 6], Cands={5}, CurTime-5, ETime[5] =6。 
7. 此 时 还 剩 下 一 个 候选 结 点 ( 结 点 5)， 因 此 它 被 选择 并 且 算 法 终止 。 
最 后 的 调度 是 
Sched- [3, 1, 2, 4, 6, 5] 
并 且 这 个 调度 需要 6 拍 时 钟 周期 ， 这 正好 就 是 最 小 的 可 能 值 。 
已 证 明 这 个 算法 的 一 种 实现 所 产生 的 调度 在 最 坏 情况 下 ， 对 于 具有 一 条 以 上 相同 流水 线 的 
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机 器 而 言 ， 至 多 是 最 优 时 间 的 两 倍 ; 对 于 具有 p 条 不 同 功能 部 件 流 水 线 的 机 器 而 言 ， 至 多 是 p 十 
1 倍 。 实 际 中 ， 它 产生 的 调度 几乎 总 是 比 这 个 上 界 更 好 。 

当 IMcands1>1 或 1Ecands1>1 时 ， 可 以 使 用 各 种 启发 式 来 做 出 实用 的 选择 。 这 些 启发 式 
策略 包括 : 

1. 从 MCands 选 择 具有 最 小 ETime [n] 的 结 点 n。 

2. 如 果 体系 结构 有 p> 1 条 流水 线 ， 并 且 每 条 流水 线 都 有 若干 候选 结 点 ， 优 先 选 择 最 近 没 有 
为 它 调度 指令 的 那些 流水 线 上 的 候选 结 点 。 

3. 优先 选择 那 种 在 选择 它 之 后 能 使 新 产生 的 Cands 的 元 素 个 数 最 大 的 指令 。 

4. 优先 选择 那 种 能 释放 寄存 器 或 者 能 避免 使 用 额外 寄存 器 ， 因 而 能 减轻 寄存 器 压力 的 指令 。 

Smotherman 等 人 观察 了 指令 调度 中 使 用 的 一 些 DAG 类 型 ， 并 给 出 了 长 长 的 一 列 启发 式 清 
单 ， 他 们 描述 的 6 种 不 同调 度 方法 的 实现 使 用 了 其 中 的 一 些 子 集 (进一步 阅读 参见 17.8 节 ) 。 
Gibbons 和 Muchnick 从 根 结 点 向 叶 结 点 构造 依赖 DAG， 即 ， 从 基本 块 的 最 后 一 条 指令 开始 向 上 
处 理 ， 以 便 最 有 效 地 处 理 PA-RISC 中 的 异 位 位 。 借 位 位 定义 频繁 但 使 用 相对 很 少 ， 因 此 ， 自 底 
向 上 构建 DAG 能 先 注意 到 它们 的 使 用 ， 并 且 仅 当 有 一 个 向 上 已 暴露 的 使 用 时 ， 才 会 去 关注 它 
们 的 定 值 。 

注意 ， 指 令 调度 研究 中 有 一 些 采 用 的 是 与 依赖 DAG 不 同 的 表示 。 具 体 地 ，Hennessy 和 
Gross 使 用 的 是 所 谓 的 机 器 级 DAG， 这 是 4.9.3 节 讨论 的 DAG 中 间 代 码 形式 的 一 种 改编 版 本 。 这 
种 改编 包括 用 机 器 寄存 器 和 存储 位 置 作为 叶子 结 点 和 标号 ， 以 及 用 机 器 指令 作为 中 间 结 点 。 这 
种 DAG 中 出 现 的 显 式 约束 比较 少 ， 如 图 17-8 中 的 例子 所 示 。 对 于 图 3) 中 的 LIR 代 码 ，Hennessy 
和 Gross 的 方法 将 构造 出 图 b) 中 的 机 器 级 DAG; 我 们 的 依赖 DAG 如 图 c) 所 示 。 假 设 r1 和 r4 在 基 
本 块 末尾 都 是 不 活跃 的 ， 机 器 级 DAG 人 允许 两 种 正确 的 调度 ， 即 

1, 2, 3, 4 
和 

3,4,1,2 . 
而 依赖 DAG 只 人 允许 第 一 种 调度 。 但 同时 ， 机 器 级 DAG 也 会 允许 不 正确 的 调度 ， 例 如 

1, 3, 2, 4 
除非 对 调度 处 理 增加 一 些 规则 ， 如 Hennessy 和 Gross 所 做 的 那样 ， 限 制 指令 只 调度 到 所 谓 的 
“安全 位 置 *。 我 们 认为 这 种 方法 作用 于 上 面 定义 的 这 种 DAG 时 并 没有 特别 的 优点 ， 尤 其 是 它 
导致 指令 调度 的 复杂 性 上 升 到 了 O4)。 





1 
ri <- [r12+0] (4) (3) (2) 
rá «€ ri*1 
r4 «- [r12+4] (4) 1 I : 
ri «€ r4- 1 

1 


a) b) c) 
图 17-8 a) 一 个 LIR 基 本 块 ，b) Hennessy 和 Gross 的 机 器 级 DAG，c) 我 们 的 依赖 DAG 
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171.3 自动 生成 指令 调度 器 


指令 调度 研究 的 另 一 个 问题 是 ， 需 要 能 够 从 机 器 描述 自动 生成 调度 器 ， 并 且 实 际 上 已 经 能 
自动 生成 了 。 这 很 重要 ， 因 为 即使 是 用 于 单一 体系 结构 的 编译 器 也 可 能 (并且 几乎 总 是 ) 需要 
涉及 该 体系 结构 的 不 同 实现 。 各 种 实现 常常 各 不 相同 ， 这 种 不 同 足以 使 得 对 于 一 种 实现 而 言 是 
非常 好 的 … 个 调度 器 ， 对 于 其 他 实现 则 显得 平庸 普通 。 

因此 ， 重 要 的 是 要 能 够 从 特定 实现 的 机 器 描述 来 生成 指令 调度 器 ， 并 尽 可 能 地 考虑 到 实现 
与 调度 相关 的 独特 性 。 可 能 是 最 著名 的 ， 同 时 也 肯定 是 分 发 最 广 的 这 种 调度 器 的 生成 器 是 gcc 
( 即 GNU C 编 译 器 ) 中 的 指令 调度 器 的 生成 器 。 它 为 编写 编译 器 的 人 提供 了 书写 机 器 描述 所 必 
需 的 便利 ， 这 种 机 器 描述 可 以 有 书写 者 自己 定义 的 特征 ， 并 且 为 刻画 这 些 特 征 之 间 的 相互 作用 
提供 了 很 大 程度 的 灵活 性 。 只 要 提供 非常 详细 的 有 关 实 现 的 机 器 描述 ， 如 流水 线 结构 、 结 构 上 
的 停顿 (structural hazards )、 延 迟 、 低 级 并 行规 则 等 ， 它 就 能 生成 相当 有 效 的 调度 器 。 


17.1.4 超标 量 实现 有 关 的 调度 


超标 量 机 器 的 调度 需要 尽 可 能 精确 地 模拟 CPU 的 功能 部 件 组 织 ， 例 如 ， 通 过 使 用 带 有 某 种 
偏向 的 启发 式 而 顾及 到 一 个 特定 的 处 理 器 具有 两 条 整数 流水 线 、 两 条 浮 点 流水 线 和 一 个 分 支部 
件 (如 POWER 的 某 些 实现 ) ， 或 一 对 指令 仅 当 是 双 字 对 齐 的 才能 够 同时 启动 (如 i860 要 求 的 ) 
等 等 。 后 一 种 要 求 较 容易 做 到 ， 如 通过 插入 nop 使 得 每 一 个 基本 块 开 始 于 双 字 边界 来 实现 ， 也 
可 做 更 多 的 工作 ， 通 过 记录 需要 边界 对 齐 的 每 一 对 指令 的 边界 ， 并 在 需要 时 使 它 对 齐 于 双 字 边 
界 来 实现 。 

对 于 超标 量 系统 ， 指 令 调 度 还 需要 照顾 到 将 指令 组 织 成 可 同时 流出 的 指令 组 .这 可 以 通过 
一 种 成 组 启发 式 ， 即 贪 些 算法 来 实现 ， 这 种 贪 禁 算 法 尽 可 能 地 用 就 绪 指令 填充 有 效 指令 槽 ， 具 
体 方法 如 下 。 假 设 所 考虑 的 处 理 机 有 mz 个 可 并 行 执行 的 部 件 P,，…, P,， 并 且 每 一 个 部 件 Pi; 可 以 
执行 类 别 为 Pclass() 的 指令 。 我 们 用 图 17-6 表 调度 算法 中 所 用 的 数据 结构 的 "个 副本 来 模拟 这 
些 功能 部 件 ， 并 用 IClass (inst) 确定 具体 指令 zast 的 类 别 ， 即 ， 指 令 iast 能 够 由 执行 部 件 并 行 ， 
4 HX PClass() =IClass Gnst) 。 于 是 能 够 将 那个 表 调 度 算法 修改 成 为 一 个 用 于 超标 量 
系统 的 简单 易 懂 的 调度 器 。 

但 是 要 记 住 ， 贪 楚 调 度 可 能 不 是 最 优 的 ， 如 图 17-9 中 的 例子 所 示 。 我 们 假定 这 个 处 理 机 有 
两 条 流水 线 ， 其 中 一 条 可 执行 整数 和 浮 点 操作 ， 另 一 
条 可 以 做 整数 和 存储 操作 ; 每 一 个 操作 的 延迟 是 1 拍 。 
假设 在 指令 之 间 的 惟一 依赖 是 Fltop 必 须 先 于 Fltop FitLà FitOp  IntOp 
IntLd, 则 图 17-9a 的 贪 禁 调 度 需 要 两 拍 ， 而 图 17-9b IntOp  IntLd IntLd 


IntFlt IntMem IntFit IntMem 





FitLd 


中 的 贪 村 调度 需要 三 拍 。 a) b) 
还 有 ， 我 们 必须 小 心 在 这 种 启发 式 中 不 要 使 用 太 多 o A AILE AIEN 
17-9 量 处 理 机 的 两 种 
的 超前 察看 ， 因 为 所 有 非 平 凡 的 指令 调度 实例 至 少 都 是 和 MAP 
NP 困难 的 。 这 种 调度 可 能 通过 跨 控制 流 结构 的 调度 而 b) 不 是 最 优 的 


得 到 改善 ， 即 ， 如 17.1.6 节 所 讨论 的 ， 在 调度 中 使 用 扩 
展 基本 块 和 /或 反 扩 展 基本 块 ; 或 者 用 更 强 有 力 的 全 局 技术 使 其 得 到 改善 。 例 如 ， 使 用 扩展 基本 块 
时 ， 为 了 改善 指令 的 成 组 关系 ， 可 能 会 需要 将 一 条 指令 从 一 个 基本 块 移 到 它 的 两 个 后 继 基本 块 中 。 
17.1.5 基本 块 调度 中 的 其 他 问题 

前 面 的 贪 禁 指 令 调 度 方法 的 设计 是 为 了 隐藏 从 数据 高 速 缓存 取 数 启动 开始 到 所 取 的 值 被 寄 
存 器 接收 之 间 的 延迟 。 它 并 没有 考虑 到 被 取 的 数据 可 能 不 在 高 速 缓存 ， 并 因此 需要 从 主 存 或 从 


SD 


二 级 高 速 缓存 读 取 的 情况 ， 因 而 可 能 招致 流水 线 出 现 相 当 长 的 、 并 且 是 不 可 预测 的 停顿 。 
Eggers 和 她 的 同事 ([KerE93] 和 [LoEg95]) 提出 了 一 种 称 为 平衡 式 调 度 (balanced scheduling) 
的 方法 , 其 设计 考虑 到 了 这 种 可 能 性 。 他们 的 算法 将 出 现在 基本 块 中 一 系列 取 数 指令 中 的 延迟 ， 
通过 调度 其 他 指令 到 它们 中 间 而 由 这 些 指令 来 分 担 。 随 着 处 理 机 速度 的 增加 持续 地 超过 存储 器 
速度 的 增加 ， 这 种 方法 正 逐 渐变 得 重要 起 来 。 

寄存 器 分 配 和 指令 调度 之 间 的 相互 影响 也 会 产生 严重 的 问题 。 考 虑 图 17- 10a 的 例子 ， 它 的 
依赖 DAG 如 图 17-11a 所 示 。 由 于 rl 和 r2 紧 接着 都 被 使 用 ， 因 此 指令 5 到 7 中 的 任何 指令 都 不 能 
调度 到 指令 1 和 4 之 前 。 如 果 改 变 寄 存 器 分 配 ， 使 5 到 7 中 的 指令 使 用 不 同 的 寄存 器 ， 如 图 17-10b 
所 示 ， 则 它 的 依赖 DAG 变 成 了 图 17-11b 所 示 情 形 ， 从 而 显著 增 大 了 调度 的 自由 度 。 与 原来 的 寄 
存 器 分 配 相 比 ， 我 们 可 以 调度 取 数 指令 使 得 停顿 不 会 发 生 ， 具 体 情 况 如 图 17-12 所 示 ， 而 原来 
的 寄存 器 分 配 根本 不 能 对 指令 进行 重 排 。 


ri < [ri12*0](4) 
r2 «- [ri244](4) 
ri «€ rl + r2 


ri «€ [r12+0] (4) 
r2 € [r12+4] (4) 
r3 «- ri + r2 


[r12,0](4) € ri 
ri < [r1248](4) 
r2 < [ri2*12)(4) 
r2 «- ri + r2 


a) 





[ri2,0](4) < r3 
r4 «- [r12+8] (4) 
rb < [r12+12] (4) 
r6 «- r4 + rb 


b) 








图 17-10 a) 其 寄存 器 指派 对 调度 有 不 必要 、 限 制作 用 的 LIR 基 本 块 ，b) 对 它 较 好 的 一 种 寄存 器 分 配 


1 1 ri < [r12+0] (4) 

f r2 < [r12+4] (4) 

r4 < [r12+8] (4) 

(3) r5 «- [r12+12] (4) 
r3 < rl + r2 


[r12+0] (4) «€ r3 
r6 «- r4 * r5 





a) b) 
图 17-11 图 17-10 中 基本 块 的 依赖 DAG 图 17-12 图 17-10b 中 基本 块 的 调度 ， 
这 种 调度 覆盖 了 所 有 取 数 延迟 

为 了 实现 这 一 点 ， 我 们 在 代码 生成 期 间 分 配 符号 寄存 器 ， 然 后 在 编译 处 理 的 较 后 阶段 进 
行 寄存 器 分 配 。 我 们 在 寄存 器 分 配 即 将 开始 之 前 进行 指令 调度 ( 即 ， 对 使 用 符号 寄存 器 的 代 
码 进行 调度 )， 然 后 在 寄存 器 分 配 生 成 了 寄存 器 溢出 代码 的 情况 下 ， 紧 接 其 后 再 重复 进行 指 
AWARE. IBM XL 用 于 POWER 和 PowerPC 的 编译 器 (参见 21.2 节 )，Hewlett-Packard 用 于 
PA-RISC 的 编译 器 ， 以 及 Sun 用 于 SPARC 的 编译 器 (参见 21.1 节 ) 都 采用 这 种 做 法 ; 实践 已 
证 明 这 种 方法 比 在 寄存 器 分 配 之 前 或 之 后 进行 单独 一 遍 调 度 的 方法 能 生成 更 好 的 调度 和 更 好 
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的 寄存 器 分 配 。 
17.1.6 跨 基 本 块 边界 的 调度 


尽管 有 些 程序 有 非常 大 的 基本 块 ， 给 调度 提供 了 许多 改善 代码 质量 的 机 会 ， 但 也 常常 出 现 
基本 块 太 小 以 至 于 调度 对 它 不 起 作用 或 起 的 作用 非常 小 的 情况 。 因 此 ， 值 得 做 的 是 如 循环 展开 
(17.4.3 节 ) 所 做 的 那样 使 基本 块 更 长 ， 或 者 扩充 指令 调度 使 其 跨越 基本 块 边界 ， 我 们 将 在 17.4 
节 讨 论 这 种 方法 。 

另 一 种 途径 是 尽 可 能 地 在 调度 后 继 基本 块 之 前 调度 各 个 基本 块 ， 并 在 调度 一 个 后 继 基本 块 
的 初始 状态 中 ， 考 虑 在 调度 它 的 前 驱 完 结 时 遗留 下 来 的 任何 延迟 。 

另 一 种 方法 是 转换 代码 以 便 能 够 更 好 地 覆盖 分 支 延 迟 。 具 体 地 ，Golumbic 和 Rainish 
[GolR90] 讨 论 了 3 种 转换 ， 它 们 能 帮助 吸收 掉 POWER 的 比较 (cmp) 指令 与 发 生 转 移 的 条 件 
分 支 指令 (bc) 之 间 的 3 拍 延 迟 ， 以 及 在 cmp -bc-bP 序 列 中 未 发 生 转 移 的 条 件 分 支 指令 的 4 
拍 延 迟 。 下 面 讨 论 的 与 循环 关闭 有 关 的 分 支 是 这 种 方法 的 一 个 例子 。 假 设 我 们 有 一 个 如 图 
17-13a 所 示 的 循环 ， 它 含有 一 拍 未 被 覆盖 的 延迟 。 用 下 面 的 方法 我 们 可 以 覆盖 这 一 拍 延 迟 ， 
即 ， 转 换 cmp 指 令 使 其 测试 与 原来 条 件 相反 的 条 件 (由 !cona 指 定 )， 用 bc 指令 转移 到 循环 
出 口 ， 并 在 bc 指令 之 后 复制 循环 的 第 1 条 指令 ， 然 后 插入 一 条 转移 到 循环 的 第 2 条 指令 的 无 
条 件 分 支 指令 ， 结 果 得 到 图 17-13b 所 示 的 代码 ” 。 显 然 也 可 推广 这 种 方法 用 于 覆盖 有 2 拍 或 3 
拍 延迟 的 情况 。 


: insti 
: inst2 


: insti 
inst2 


cmp cr0,!cond 
insta-1 


cmp cr0,cond 
instm-1 


instn 

be cr0,L2 
insti 

b L3 


instn 
be crO,L1 





a) b) 
图 17-13 a) 含 1 拍 未 覆盖 的 cmp-bc 延 迟 的 POWER 循环 代码 ，b) 经 转换 后 已 覆盖 此 延迟 的 代码 
17.8 节 给 出 了 与 跨 基 本 块 边界 调度 若干 方法 有 关 的 引文 。 


17.2 WHILE 


AMIE (speculative loading) 是 一 种 机 制 ， 它 能 增加 调度 的 有 效 自 由 度 ， 并 提供 一 种 途径 来 
隐藏 为 满足 从 内 存 取 数 而 不 是 从 高 速 缓存 取 数 所 固有 的 延迟 。 前 用 取 指 令 (speculative load) 是 
一 条 取 指 令 ， 它 所 取 的 量 在 被 使 用 之 前 不 会 发 生 任何 存储 器 异常 。 这 种 取 指 令 可 以 在 不 知道 它 
生成 的 地 址 是 否 合法 之 前 流出 一 一 如 果 较 后 发 现 地 址 不 合法 ， 只 需要 简单 地 避免 使 用 所 取 的 值 
即 可 。 这 种 前 瞻 取 指令 存在 于 多 流水 线 体系 结构 中 ， 如 SPARC-V9、PowerPC 以 及 其 他 机 器 中 。 

例如 ， 取 链表 的 下 一 元 素 可 以 用 一 条 位 于 测试 是 否 已 到 达 表 尾 的 指令 之 前 的 前 瞻 取 指令 来 
启动 一 如 果 已 经 到 达 表 尾 ， 使 用 由 这 条 前 瞻 取 所 得 数据 的 指令 将 不 会 执行 ， 因 此 不 会 产生 问 


他 ”这 是 后 面 17.4.1 节 讨论 的 软 流 水 窗口 调度 方法 的 一 个 实例 。 
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题 。 这 种 情况 的 一 个 MIR 例 子 在 图 17-14 中 给 出 。 其 中 a) PO ic PUR d HX Sk e SEA 
数 例 子 。 在 b) 部 分 中 ， 标 号 为 L2 的 那 一 行 的 赋值 “pl sp p*.next” 使 pl 移动 至 我 们 正 检 [547 
查 的 这 个 对 象 ( 由 p 所 指向 的 ) 之 前 的 一 个 记录 。 只 要 对 p1 的 赋值 是 前 瞻 取 指令 〈 由 箭头 之 后 
的 sp 标志 )， 就 不 会 发 生 错误 。 
search: 
receive ptr (val) 


receive ptr (val) 
p < ptr 


search: 
f receive ptr (val) 
receive v (val) 
p < ptr 
: pl «-sp p*.next 
if p*.val = v goto L1 


: if p*.val = v goto L1 


p € p*.next 
if p !- NIL goto L2 


if P - NIL goto L3 
p< pi 
goto L2 

Li: return 1 

L3: return O 


return 0 
: return 1 





a) b) 


图 17-14 a) 搜索 表 的 例 程 ，b) 同一 个 例 程 ， 但 取 下 一 个 元 素 的 操作 
被 上 推 到 测试 是 否 到 达 表 尾 的 判断 之 前 


因此 ， 前 瞻 取 指令 可 以 移 到 判别 合法 性 的 测试 之 前 ， 即 从 一 个 基本 块 移 到 前 一 个 基本 块 ， 
或 从 循环 的 一 个 迭代 移 到 较 早 的 一 个 选 代 。 这 种 代码 移动 叫做 上 推 (boosting), RogersflLi 
(参见 17.8 节 的 引文 ) 介绍 了 实现 它 的 有 关 技术 。 


17.3 BURMA 


AT 974K (speculative scheduling) 是 前 瞻 取 的 一 种 推广 技术 ， 其 目的 是 为 了 使 其 他 类 型 
的 指令 能 够 向 过 程 的 人 口 方向 跨 一 个 或 多 个 分 支 移动 ， 尤 其 是 移 到 循环 之 外 。 它 有 两 种 形式 : 
安全 前 瞻 调 度 和 非 安 全 前 瞻 调 度 。 安 全 前 瞻 调 度 中 ， 被 移动 的 指令 在 新 移 到 的 位 置 执 行 时 不 会 
产生 问题 (大 概 除 了 可 能 导致 计算 变 慢 之 外 ) ; 非 安 全 前 瞻 调 度 中 ， 被 移动 的 指令 必须 受 判 断 
它们 能 否 在 被 移 到 的 新 位 置 合法 执行 条 件 的 保护 。 

前 瞻 调 度 的 技术 太 新 ， 由 于 它们 对 性 能 的 影响 还 没有 证 明 ， 所 以 我 们 目前 只 能 提 及 这 一 主 
题 和 有 关 的 参考 文献 (参见 17.8 节 )。 具 体 地 ，Ebcio&lu 等 人 已 开展 了 有 关 前 瞻 调 度 和 它 的 对 称 
操作 ， 即 反 前 瞻 调 度 (unspeculation) 方面 的 研究 工作 。Golumbic 和 Rainish 的 论文 以 及 
Bernstein 和 Rodeh 的 论文 计 论 了 这 一 方向 的 早期 工作 。 


17.4 软 流水 


AK (software pipelining) 是 一 种 优化 ， 它 能 改善 任何 允许 指令 级 并 行 的 系统 的 循环 执 
行 性 能 ， 包 括 VLIW 和 超标 量 系统 ， 也 包括 那 种 允许 整数 和 浮 点 指令 同时 执行 但 不 同时 启动 执 。 [as 
行 的 单 标量 实现 。 软 流水 通过 人 允许 同时 处 理 循 环 的 若干 迭代 来 利用 循环 体 中 湾 在 的 并 行 性 。 

例如 ， 假 设 一 台 具 有 一 个 整数 部 件 和 一 个 浮 点 部 件 的 单 标量 实现 ， 其 中 浮 点 取 和 存 由 整数 
部 件 来 执行 (其 执行 拍 数 由 阴影 部 分 指明 )， 同 时 假设 图 17-15 循 环 中 的 指令 具有 图 中 所 示 的 延 
迟 ， 则 如 贸 17-16 流 水 线 示 意图 中 的 虚线 所 示 ， 在 此 机 器 上 执行 这 个 循环 的 每 一 个 迭代 需要 12 
拍 。 注 意 ， 在 faddas 和 stf 之 间 有 6 拍 的 流出 延迟 ， 如 果 我 们 能 够 使 前 一 个 迭代 的 存 数 指令 与 
当前 迭代 的 加 法 运算 指令 重 释 执行 ， 这 6 拍 流出 延迟 就 可 以 减少 。 复 制 第 1 个 迭代 的 取 数 指令 和 
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加 法 指令 ， 以 及 第 2 个 迭代 的 取 数 指令 于 循环 之 前 ， 可 以 使 得 循环 以 存 数 指令 开始 ， 其 后 接着 
PERM MEER, RR RISER RASS. -— m 
这 样 做 在 循环 之 前 增加 了 3 条 指令 ， 并 且 还 需要 在 循环 之 延迟 延迟 
后 增加 5 条 指令 来 完成 最 后 两 个 迭代 ， 由 此 产生 的 代码 如 |L: aiaf [ri] ,fo 

图 17-17 所 示 。 如 图 17-18 中 的 虚线 所 示 ， 它 将 循环 体 的 fadds f0,f1,f2 


拍 数 减 少 为 7 拍 ， 每 个 迭代 的 执行 时 间 减 少 了 5/12， 大 约 £2, [r1] 
是 42%。 只 要 这 个 循环 总 是 至 少 迭 代 3 次 ， 这 两 种 形式 的 rn 


ri,0 


作用 就 是 相同 的 。 
另外 ，7 拍 也 是 这 个 循环 的 最 小 执行 时 间 ， 除 非 我 们 
展开 它 ， 因 为 fadds 需 要 7 拍 。 假 如 展开 它 ， 我 们 就 能 重 — - - 
番 两 个 以 上 的 faaas ， 从 而 进一步 提高 性 能 。 因 此 软 流 图 17-15 一 个 简单 的 SPARC 循 环 ， 
水 和 循环 展开 一 般 是 互补 的 。 另 一 方面 ， 我 们 可 能 会 需 带 有 假定 的 流出 和 结果 延迟 
要 使 用 额外 的 寄存 器 ， 因 为 同时 执行 的 两 个 Fadas 必 须 使 用 不 同 的 源 寄存 器 和 目的 寄存 器 。 








0 1 2 3 4 5 6 7 8 9 10 d» 12 13 14 15 16 


ldf  [r1],fO0 
fadds f0,f1,f2 
ldf  [r1-4],f0 
:stf  f2,[r1] 
fadds f0,f1,f2 
ldf  [ri1-8],f0 
cmp  r1,8 
bg L 
sub ri,4,ri 
stf  f2,[ri] 
sub ri,4,r1 
fadds f0,f1,f2 
stf f2,(ri] 
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图 17-17 图 17-15 软 流水 循环 的 结果 ， 带 有 图 17-18 图 17-17 循 环 体 的 流水 图 解 
对 应 的 流出 和 结果 延迟 
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由 于 软 流 水 移动 到 循环 之 外 的 迭代 个 数 是 固定 的 ， 因 此 我 们 必须 要 么 事先 知道 循环 至 少 重 
复 了 那么 多 次 ， 要 么 可 能 的 话 ， 生 成 运行 时 测试 它 的 代码 ， 并 根据 测试 结果 选择 执行 循环 的 软 
流水 版 本 还 是 执行 非 软 流水 版 本 。 当 然 ， 有 些 循环 ， 不 执行 它们 就 不 可 能 确定 其 迭代 次 数 ， 因 
而 软 流水 不 能 施加 于 这 种 循环 。 

另 一 个 考虑 是 我 们 究竟 能 够 在 多 大 程度 上 消除 存储 引用 的 歧义 性 才能 使 得 对 流水 线 的 约束 
(如 第 9 章 讨论 的 ) 最 小 。 存 储 引 用 歧义 消除 得 越 好 ， 流 水 的 自由 度 就 越 高 ， 从 而 产生 的 调度 一 
般 也 会 更 好 。 

在 下 面 两 小 节 中 ， 我 们 讨论 两 种 软 流 水 方法 ， 窗 口 调度 和 展开 一 压 实 软 流 水 。 第 一 种 方法 
实现 简单 ， 而 第 二 种 方法 一 般 能 得 到 更 好 的 调度 。 

17.4.1 窗口 调度 


称 为 窗口 调度 (window scheduling) 的 软 流水 方法 ， 其 名 字源 于 它 的 软 流 水 概念 模型 一 一 
它 建立 循环 体 依赖 DAG 的 两 个 相互 关联 的 副本 ， 其 中 ， 循环 体 必须 是 单个 基本 块 ， 然 后 用 一 
个 窗口 沿 这 两 个 副本 从 上 至 下 实施 调度 。 该 窗口 在 每 一 点 都 含有 循环 体 的 一 个 完整 副本 ; 位 于 
窗口 之 上 和 之 下 的 指令 则 分 别 成 为 了 流水 循环 的 填充 部 分 (prologue) 和 排 空 部 分 (epilogue)。 
例如 ， 图 17-19a 的 依赖 DAG 变 成 了 图 17-19b 所 示 的 双 DAG 或 窗口 调度 DAG， 其 中 虚线 标 出 了 
可 能 的 窗口 。 随 着 窗口 沿 这 两 个 副本 向 下 移动 ， 我 们 尝试 由 此 得 到 的 各 种 调度 ， 并 寻找 那 种 能 
够 降低 整个 循环 体 延 迟 的 调度 。 我 们 在 进行 窗口 调度 的 同时 做 其 他 指令 调度 ， 并 使 用 基本 块 调 
度 器 来 调度 循环 体 。 


stf ldf 


fadds sub 


a) 
图 17-19 a) 一 个 循环 体例 子 的 依赖 DAG ， 和 b) 用 于 窗口 调度 的 双 版 本 ， 虚 线 指出 了 可 能 的 窗口 


图 17-20 是 窗口 调度 的 ICAN 算 法 轮廓 。 它 的 输入 是 Inst [1 . .n] ， 即 构成 要 软 流水 的 循环 
体 基本 块 的 指令 序列 。 它 首先 构造 基本 块 的 依赖 DAG (利用 图 9-6 给 出 的 Bui1l9_DAG () ), 并 
将 其 存储 于 Dag 中 。 然 后 使 用 Schedulable () 来 判别 该 循环 是 否 能 用 窗口 调度 ， 即 它 的 循环 
索引 在 循环 体内 是 否 只 增加 了 一 次 ， 并 且 循环 至 少 执行 两 次 。 如 果 是 这 样 ， 算 法 使 用 下 面 的 信 
息 : 

1. Dag 记 录 在 窗口 处 理 过 程 中 使 用 的 窗口 调度 或 双 DAG (Double DAG ( ) 构造 )。 

2. Window 指 出 窗口 的 当前 布局 。 

3. Sched 记 录 窗 口中 当前 对 DAG (基本 块 ) 的 调度 。 

4. Stall 是 与 Sched 相 连 的 停顿 拍 数 。 

5. MinStall 记 录 迄 今 为 止 尝 试 的 所 有 调度 中 的 最 小 停顿 拍 数 。 

6. BestSched 是 最 后 生成 的 具有 最 小 停顿 拍 数 的 DAG。 
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DAG = record (Nodes, Roots: set of integer, 
Edges: set of (integer x integer), 
Label: set of (integer x integer) 一 > integer) 


procedure Window Schedule(n,Inst,Limit,MinStall) 
n, Limit, MinStall: in integer 
Inst: inout array [1--n] of LIRInst 
begin 
Dag, Window, Prol, Epi: DAG 
Stall, N: integer 
Sched, BestSched, ?roS, EpiS: sequence of integer 
Dag := Build DAG(n,Inst) 
if Schedulable(Dag) then 
Dag := Double DAG(Dag) 
:= Init Window(Dag) 
BestSched := SP Schedule(iWindow.Nodes|,Window,Window.Roots, 
MinStall,ExecTime) 
Stall :- MinStall 
repeat 
if Move Window(Dag,Window) then 
Sched := SP Schedule(|Window.Nodes|,Window,Windov. 
Roots,MinStall,ExecTime) 
if Stall « MinStall then 
BestSched := Sched 
MinStall :- min(MinStall,Stall) 
fi 
fi 
until Stall = 0 V Stall 2 Limit * MinStall 
Prol := Get Prologue(Dag,Window) 
Epi:= Get Epilogue(Dag,Window) 
ProS := SP Schedule(|Prol.Nodes| ,Prol,Prol.Roots,MinStall,ExectTme) 
Epis := SP. Schedule(|Epi.Nodes|,Epi,Epi.Roots,MinStall,ExectTme) 
N := Loop.Ct Inst(n,Inst) 
Decr, Loop. Ct (Inst [N]) 
fi 
end || Window. Schedule 





图 17-20 窗口 调度 算法 

1imit 由 编译 器 的 编写 者 来 选择 ， 窗 口 调度 器 用 它 来 决定 迄今 为 止 已 达到 的 最 好 的 调度 还 
应 当 徘 徊 多 远 才 停止 进一步 寻找 更 好 的 调 庆 。 窗 口 调度 处 理 中 使 用 如 下 例 程 : 

1. SP. Schedule () 是 从 图 17-6 给 出 的 基本 块 调 度 器 而 构造 的 ， 具 体 地 ，SPF_Schedule(N， 
Dag, R, stall, ET) 计 算 函 数 DagSucc () 和 DagPred() ， 调 用 Schedule(N, Dag, R, DagSucc, 
DagPred, ET), 设置 stal! 为 已 产生 的 调度 sched 的 停顿 拍 数 ， 并 返回 sched 作 为 返回 值 。 

2. Move, Window () 在 双 DAG 中 选择 一 条 指令 ， 并 下 移 窗口 越过 该 指令 (假设 存在 移动 窗 
口 的 余 留 空间 ) ， 如 果 成 功 移动 了 窗口 ， 返 回 true; 否则 返回 false。 

3.Get_Prologue () 和 Get_Epilogue() 分 别提 取 双 DAG 位 于 窗口 之 上 和 之 下 的 部 分 。 

4. Loop. Ct. Inst () 确 定 哪 条 指令 是 对 循环 计数 器 进行 测试 的 指令 。 

5. Decr. Loop. Ct () 修 改 指令 少 做 一 个 迭代 。 这 样 做 是 适当 的 ， 因 为 如 迄今 所 描述 的 ， 这 个 
算法 只 移动 一 个 迭代 到 循环 之 外 ， 循 环 本 身 做 两 个 连续 的 选 代 ， 总 共 比 原 循 环 体 少 做 一 个 迭代 。 
因此 ， 我 们 需要 由 Get_Prologue () filGet_Epilogue () 提 取 的 代码 在 循环 体 之 外 做 一 个 迭代 。 

6. ExecTime (n) 是 执行 与 DAG 中 结 点 z 相 连 的 指令 所 需要 的 拍 数 。 

通过 将 窗口 调度 算法 重复 应 用 于 由 它 产生 的 新 循环 体 ， 不 难 将 此 算法 推广 到 允许 在 流水 循 
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环 内 处 理 多 于 两 个 以 上 的 迭代 。 例 如 ， 以 图 17-15 的 循环 例子 作为 开始 ， 它 的 窗口 调度 DAG 如 
图 17-21a 所 示 。 移 动 窗口 到 1df 之 下 得 到 图 17-22a 的 代码 ， 以 及 图 17-21b 的 窗口 调度 DAG。 往 
下 移动 窗口 越过 fadds 依 次 得 到 图 17-22b 中 的 代码 和 图 17-21c 的 窗口 调度 DAG。 最 后 ， 往 下 移 
动 窗口 第 二 次 越过 1df 得 到 图 17-17 的 代码 。 





b) c) 
图 17-21 在 窗口 处 理 过 程 中 图 17-1$ 和 图 17-22 中 循环 的 连续 版 本 的 双 DAG 


[r1],f0 
f0,f1,f2 
£2, [r1] 
{r1-4] , £0 
£0,f1,f2 
r1,4,r1 
rí,4 

L 


[ri], fO 
f0,f1,f2 
f2, [r1] 
[r1-4] ,£0 
r1,4,ri 
ri,4 

L 


£2, [r1-4] 
ri,4,r1 


f0,f1,f2 
£2,[ri-4] 
r1,4,r1 





a) b) 
图 17-22 图 17-15 中 循环 的 中 间 版 本 
注意 ， 不 难 将 循环 展开 与 窗口 调度 相 结合 ， 这 样 做 是 有 帮助 的 ， 因 为 它 总 是 给 调度 器 增加 了 有 效 
的 自由 度 : 替代 用 Doupble_DAG () 来 创建 循环 体 的 一 个 副本 ， 我 们 用 一 个 子 程序 来 建立 展开 因子 为 n 
( 即 创建 n 一 1 个 副本 ) 的 展开 的 循环 。 然 后 简单 地 对 由 此 得 到 的 n 个 副本 进行 窗口 调度 。 这 种 方法 同 变量 
扩张 和 寄存 器 重 命名 结合 一 起 ， 常 常 能 够 获得 更 高 的 性 能 ， 因 为 它 使 得 调度 器 有 更 多 的 指令 可 以 调度 。 


17.4.2 展开 - 压 实 软 流水 : 
展开 - 压 实 软 流 水 (unroll-and-compact software pipelining) 是 另 一 种 软 流 水 方法 ， 它 将 循 
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环 体 展开 若干 次 ， 然 后 在 指令 中 寻找 每 一 步 都 要 启动 的 重复 模式 。 如 果 找 到 这 种 模式 ， 它 就 用 
该 模式 构造 流水 的 循环 体 ,并 分 别 用 该 模式 之 前 和 之 后 的 指令 构造 填充 部 分 和 排 空 部 分 。 例 如 ， 
假设 我 们 有 如 图 17-23 所 示 的 SPARC 代 码 ， 其 循环 体 的 依赖 DAG 如 图 17-24 所 示 (假设 faads 和 
fmuls 指 令 有 3 拍 延 迟 ， 并 且 忽 略 分 支 延 迟 槽 中 的 nop )， 图 17-25 展 示 了 该 循环 迭代 可 能 有 的 一 
种 无 约束 的 贪 禁 调 度 ， 其 中 假定 每 个 时 间 步 上 列 出 的 指令 都 能 够 并 行 执行 。 图 中 带 框 的 部 分 表 
示 软 流水 循环 的 填充 部 分 、 流 水 循环 体 和 排 空 部 分 。 我 们 说 得 到 的 调度 是 “无 约束 的 "， 因 为 
它 不 考虑 有 效 的 寄存 器 个 数 或 处 理 机 指令 级 并 行 所 强加 的 限制 。 





A 
A [13) ,£0 | 
B £31,f0,f1 B c 
C [i0],f2 N A 
D f2,f1,f2 D 
E i3,i5,i3 a| 
F it G E 
G f2, [i0] N J 
H i0,i5,i0 H F 
I 
! N LÁ 
I 
图 17-23 软 流水 循环 的 另 一 个 例子 图 17-24 图 17-23 中 循环 体 的 依赖 DAG 











排 空 部 分 








图 17-25 图 17-23 中 循环 迭代 可 能 有 的 一 种 无 约束 的 贪 禁 调度 ， 框 内 的 部 分 
表示 软 流水 循环 的 填充 部 分 、 流 水 循环 体 和 排 空 部 分 
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将 结果 代码 转换 为 正确 的 软 流水 循环 的 填充 部 分 、 流 水 循环 体 和 排 空 部 分 需要 处 理 资 源 限 
制 ， 并 调整 某 些 指令 使 它们 按 新 的 序列 来 执行 。 图 17-26a 展 示 了 简单 地 按 顺 序 罗列 被 展开 的 指 








令 而 得 到 的 指令 序列 ， 而 图 17-26b 展 示 的 是 考虑 到 指令 的 执行 顺序 以 及 需要 额外 寄存 器 的 情况 355 
而 对 指令 进行 调整 后 的 结果 。 注 意 ， 除 了 从 排 空 部 分 删除 两 条 分 支 指令 外 ， 我 们 还 分 别 将 ”|556 
“ld [i0],f2” 和 “fadds f2,f1,f2” 除 第 一 次 之 外 的 所 有 出 现 修改 成 “la {i0+i5],f3” 
和 “fadds f3,£1,£2", 以便 使 用 正确 的 地 址 ， 并 避免 在 存储 寄存 器 £2 的 值 之 前 重复 使 用 £2。 
对 前 一 条 指令 的 修改 是 必须 的 ， 因 为 第 二 次 出 现 的 19 已 被 移 到 使 寄存 器 i0 增 加 的 add 指 令 之 
前 。 处 理 并 行 限制 可 能 会 为 了 更 好 地 利用 有 效 的 执行 部 件 而 导致 重 排 指令 。 例 如 ， 如 果 处 理 机 
允许 一 个 存储 器 或 整数 操作 ， 一 个 浮 点 加 和 一 个 浮 点 乘 ， 以 及 一 个 分 支 同 时 处 在 处 理 中 ， 则 一 
种 合法 的 调度 选择 可 以 是 将 循环 中 的 第 二 个 Id 放 在 fimuls 之 下 ， 但 这 样 做 会 使 得 每 个 迭代 需 
要 10 拍 而 不 是 当前 所 使 用 的 这 种 指令 排列 需要 的 9 拍 。 
[i3] ,f0 [i3] ,f0 
[i0] ,£2 [i0] ,£2 
il ii 
f31,f0,f1 £31,f0,f1 
i3,15,i3 13,i15,i3 
f2,f1,f2 £2,f1,f2 
{i3] ,f0 [i3] , £0 
{i0] ,£2 fi0+i5] ,£3 
il il 
£31,f0,f1 £31,f0,f1 
i3,i5,i3 i3,i5,i3 
£2, [i0} £2, [i0] 
i0,i5,i0 i0,i5,i0 
f2,f1,f2 f3,f1,f2 
[i3] ,£0 [i3] ,£0 
[i0] ,£2 [i0+i5] ,f3 
il il 
£31,f0,f1 f31,f0,f1 
13,15,i3 
L L 
13,15,i3 
£2, [i0] f2, [i0] 
i0,i5,i0 i0,i15,i0 
f2,f11,12 f3,f1,1f2 
L 
12, [i0] f2, [i0] 
i10,i15,i0 i0,i5,i0 
b) 
1817-26 a) 流水 循环 的 结果 指令 序列 ，b) 执行 寄存 器 重 命名 ( 见 17.4.5 节 ) 
及 调整 加 载 指令 中 的 地 址 后 的 结果 
产生 这 种 流水 指令 在 概念 上 是 简单 的 。 图 17-27 给 出 了 在 展开 的 循环 体 中 寻找 重复 模式 
( 它 将 成 为 要 流水 循环 的 流水 循环 体 ) 的 ICAN 算 法 。 我 们 再 次 假定 循环 体 是 单个 基本 块 ”[557 


LBlock[il[i..ninsts[il]. fWlfiUnroll(nblocks,i,ninsts, LBlock, j, k) 产生 循环 
体 LBlock[i][1..ninsts[i]] 的 j 个 副本 (关于 unroll 1() 的 算法 ， 参 见 图 17-30 ) 。 
Schedule (i, D, R, DS, DP, EX) 是 图 17-6 给 出 的 基本 块 调度 器 。Insts($, 0) 表示 在 指令 调度 $ 
中 时 间 步 ;期 间 执行 的 指令 序列 ，State(5, i) 表 示 执 行 了 从 1 到 i 一 1 个 迭代 后 ， 在 调度 S 中 与 时 间 
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步 对 应 的 资源 状态 。 资 源 状 态 可 以 如 9.2 节 所 述 用 一 些 资源 向 量 来 模拟 。 该 算法 根据 循环 的 展 
开 大 小 并 入 了 一 个 停止 条 件 (SizeLimit) 来 约束 查找 空间 。 


Sched: sequence of Node 


procedure Pipeline. Schedule(i,nblocks,ninsts,LBlock,SizeLimit, 
ExecTime) returns integer x integer 
i, nblocks, SizeLimit: in integer 
ninsts: in array [1-:nblocks] of integer 
LBlock: in array [1--nblocks] of array [--] LIRInst 
ExecTime: in integer 一 > integer 
begin 
j» K: integer 
Insts: (sequence of integer) x integer —> sequence 
of Instruction 
Dag: DAG 
ii: integer x array [--] of LIRInst 
for j := 2 to SizeLimit do 
ii := Unroll(nblocks,i,ninsts,LBlock,j,nil) 
Dag:= Build.DAG(iili,iil2) 
Schedule(|Dag.Nodes| ,Dag, Dag. Roots,DagSucc,DagPred,ExecTime) 
for k := j - 1 by -1 to 1 do 
if Insts(Sched,k) = Insts(Sched,j) 
& State(Sched,k) = State(Sched,j) then 
return <k,j> 
fi 
od 
od 
return (i,j? 
end || Pipeline Schedule 


图 17-27 寻找 可 形成 一 个 软 流水 的 重复 模式 的 算法 


当 这 个 算法 执行 成 功 后 ， 在 时 间 步 k 到 /六 - 1 中 的 指令 是 形成 软 流水 循环 体 的 基本 指令 ， 第 1 
到 k 一 1 步 中 的 指令 用 于 填充 部 分 ， 而 在 第 j 步 以 后 是 排 空 部 分 的 指令 。 当 然 ， 构 造 最 后 的 填充 
部 分 、 流 水 循环 体 和 排 空 部 分 需要 调整 代码 以 适应 资源 限制 , 就 像 我 们 前 面 的 例子 所 做 的 那样 。 
调度 算法 返回 一 对 整数 心 户 ， 其 中 混 原 循环 体 中 的 指令 条 数 ，j 是 循环 体 的 展开 因子 。 
17.4.3 循环 展开 


循环 展开 (loop unrolling) 用 循环 体 的 若干 副本 替代 一 个 循环 的 循环 体 ， 并 相应 地 调整 
循环 控制 代码 。 副 本 的 个 数 称 为 展开 因子 (unrolling factor)， 原 循环 称 为 卷 起 的 循环 
(rolled loop )。 在 后 面 小 节 中 ， 我 们 将 讨论 变量 扩张 ， 这 是 一 种 能 够 改善 循环 展开 和 软 流水 
效果 的 转换 。 

循环 展开 能 够 降低 一 个 使 用 索引 的 循环 的 执行 开销 ， 并 且 可 以 改善 其 他 优化 ， 如 公共 子 表 
达 式 删除 、 归 纳 变 量 优 化 、 指 令 调度 和 软 流水 的 效果 。 

例如 ， 图 17-28b 中 的 代码 是 图 17-28a 中 循环 的 一 个 展开 因子 为 2 的 展开 版 本 。 这 个 展开 
的 循环 所 执行 的 循环 关闭 测试 以 及 分 支 指令 的 次 数 是 原 循环 的 一 半 ， 并 且 通 过 使 得 每 一 个 
迄 代 能 够 调度 ， 比 如 两 条 取 a [i] 之 值 的 指令 ， 从 而 增强 指令 调度 的 效果 。 另 一 方面 ， 展 开 
的 版 本 大 于 卷 起 的 版 本 ， 因 此 它 有 可 能 影响 指令 高 速 缓存 的 作用 ， 并 由 此 可 能 抵消 由 循环 
展开 得 到 的 好 处 。 这 种 考虑 表明 ， 我 们 在 决定 展开 哪些 循环 以 及 采用 什么 样 的 展开 因子 时 
需要 小 心 权 衡 。 
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for i := 1 to 100 do 
s := s + ali] 


= 1 by 2 to 99 do begin 
:= s + alil 


:= s + a[i*1] 





a) 
图 17-28 a) 一 个 Pascal 循 环 ，b) 以 展开 因子 2 展开 它 的 结果 


另外 应 注意 ， 例 子 中 给 出 的 循环 展开 转换 是 过 度 简化 了 的 : 我 们 假定 循环 上 下 界 是 已 知 的 
常数 ， 并 且 展 开 因子 能 除 尽 迭 代 次 数 。 一 般 而 言 ， 这 些 条 件 当然 不 一 定 满足 ， 但 是 ， 具 有 一 般 
迭代 上 下 界 的 循环 仍然 能 够 展开 。 我 们 需要 做 的 是 保存 这 种 循环 的 一 个 卷 起 的 版 本 ， 当 剩余 的 
和 迭代 次 数 小 于 展开 因子 时 便 从 展开 的 循环 退出 ， 然 后 使 用 卷 起 的 版 本 执行 剩余 的 迭代 。 我 们 采 
用 这 种 方法 而 不 是 在 循环 的 每 一 个 展开 的 副本 中 测试 是 否 需 要 提前 结束 ， 是 因为 展开 循环 的 目 
的 之 一 是 为 了 使 得 指令 调度 的 范围 更 广泛 ， 尤 其 是 使 得 它 可 以 跨 循环 体 的 各 个 副本 选择 指令 ， 
但 是 当 在 这 些 副 本 之 间 存 在 条 件 控制 流 的 情况 下 ， 则 不 能 有 效 地 达到 此 目的 。 

图 17-29a 给 出 了 一 个 Fortran 77 循 环 ， 图 17-29b 展 示 了 将 它 以 展开 因子 wx 展开， 并 带 有 着 起 
的 副本 的 结果 。 当 然 ， 循 环 展开 转换 也 可 以 推广 到 那 种 循环 计数 器 的 增 量 值 不 是 1 的 循环 。 

do i = lo,hi-u*ti,u 
body 
body/i*i/i 


do i = lo,hi ， 
body body/i*u-1/i 


enddo enddo 
do i = i,hi 
body 


enddo 





a) b) 


图 17-29 a) 一 个 更 一 般 的 Fortran 771896, b) 以 展开 因子 x 展 开 它 的 结果 。 
记号 body/ 2 表示 循环 体 pody 中 用 ; 蔡 人 7 


实现 这 种 方法 的 ICAN 代 码 在 图 17-30 中 给 出 。 调 用 Unroll(nblocks, m, ninsts,， 
Block, factor, init) fJRJEBlock[m] [1. .ninsts[m] ] 为 factor 个 副本 ， 并 且 当 不 能 确定 [559 
迭代 次 数 是 否 是 展开 因子 的 倍数 时 ， 同 时 还 创建 它 的 一 个 卷 起 的 副本 。 它 所 处 理 的 指令 是 
MIRInsts 和 LIRInsts， 代 码 中 的 Instruction 指 的 只 是 我 们 的 三 种 中 间 代 码 中 的 这 两 种 。 
注意 ， 该 算法 处 理 的 循环 仅 含 一 个 基本 块 ， 并 且 循 环 的 控制 具有 一 种 特殊 类 型 : 它 假 定 var1l 
仅 由 Block [Im] [ninsts [m]-2] 修 改 ， 并 且 


Block[m] [1] = <kind:label,1bl:"L1"> 
Block[m][ninsts(m]-2] = <kind:binasgn,left:vari,opr:add, 
opdi: <kind:var,val:var1>,opd2:incr> 
Block[m][ninsts[m]-1] = <kind:binasgn,left:var3,opr:less, 
opdi: <kind: var, val:var1>,opd2:final> 
Block [m] [ninsts{m]] = <kind:valif,opd:<kind:var,val:var3), 
lbl:"L1")5 


但 不 难 将 它 推广 到 更 广泛 的 情形 。 算 法 使 用 了 如 下 几 个 函数 : | 
1. Constant (opd) 返回 true， 如 果 操 作 数 opd 是 常数 ; 否则 返回 false。 
2. new, tmp () 返 回 一 个 新 的 临时 变量 名 。 
3. new_label () 返回 一 个 新 的 标号 。 
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图 17-30 中 的 代码 没有 包括 含有 多 个 基本 块 的 循环 的 展开 处 理 一 一 因为 为 了 区 别 出 现在 循环 
体 每 一 个 副本 中 的 标号 ,需要 对 这 些 标号 重新 命名 。 


procedure Unroll(nblocks,m,ninsts,Block,factor,init) 
returns integer x array [--] of Instruction 
m, nblocks, factor, init: in integer 
ninsts: in array [1::nblocks] of integer 
Block: in array [1.…nblocks] of array [::] of Instruction 
begin 
UInst: array [::] of Instruction 
tj: Var : 
lj: Label 
i, j, div: integer 
UInstí1] := Block[m][1] 
for i := 2 to ninsts[m]-2 do 
for j := 1 to factor do 
UInst[(j-1)*(ninsts(m]-3)*i] := Block[m][i] 
od 




































od 
tj := new. tmp( ) 
UInst[factor*(ninsts[m]-3)42] := Block{m] [ninsts [m]-1] 
UInst([factor*(ninsts[m]-3)*3] := Block(m][ninsts[m]] 
div := factor*Block[m] [ninsts[m] -2] .opd2. val 
if Constant(init) & Constant(Block[m] [ninsts [m] -2] .opd2) 
& Constant (Block [m] [ninsts [m] -1] .opd2) 
& (Block[m][ninsts[m]-1].opd2.val-init*1)/div = 0 then 
return <factor*(ninsts [m] -3)+3,UInst> 
else 
1j := new_label( ) 
UInst[factor*(ninsts[m]-3)*4] := (kind: label,1b1:1j> 
for i := 2 to ninsts(m]-1 do 
' UInst[factor*(ninsts[m]-3)*i*3] := Block[m] [i] 
od 
UInst[factor*(ninsts[m]-3)*i*3] := 
(kind:valif ,opd:Block[m] {ninsts [m]] .opd,1b1:1j> 
return ((factor*1)*(ninsts[m]-3)46,UInst) 


|| Unroll 
9817-30 对 特定 循环 控制 模式 实现 循环 展开 的 ICAN 代 码 


如 前 面 曾 提请 注意 的 ， 在 循环 展开 中 最 重要 的 问题 是 判别 哪些 循环 可 展开 ， 以 及 展开 因子 
是 什么 。 这 与 两 个 方面 有 关 : 一 方面 与 体系 结构 特征 有 关 ， 例如， 有效 的 寄存 器 个 数 、 操 作 之 
间 的 有 效 重 僚 执行 情况 ， 如 浮 点 操作 与 存储 引用 的 重 登 执行 ， 以 及 指令 高 速 缓存 的 大 小 和 组 织 
结构 ， 另 一 方面 与 程序 中 要 展开 的 具体 循环 的 选择 ， 以 及 它们 使 用 的 展开 因子 有 关 。 体 系 结构 
特征 的 某 些 影响 最 好 通过 实验 来 决定 ， 这 种 结果 一 般 是 启发 式 的 。 但 是 ， 通 过 以 剖面 分 析 方 式 
运行 含有 那些 循环 的 程序 并 从 中 获得 反馈 信息 ， 对 循环 展开 做 出 判定 能 有 相当 大 的 帮助 。 
这 类 实验 的 一 组 结果 可 以 作为 判定 什么 样 的 循环 是 可 展开 循环 的 规则 ， 可 展开 的 循环 可 能 
与 如 下 类 型 的 循环 特征 相关 : 
1. 只 包含 一 个 基本 块 的 循环 ( 即 直线 型 代码 ) ; 
2. 含有 某 种 平衡 的 浮 点 和 存储 器 操作 ， 或 某 种 平衡 的 整数 存储 器 操作 的 循环 ; 
S6) 。 3. 生成 少量 中 间 代码 指令 的 循环 ; 
561| 。 4. 循环 控制 简单 的 循环 。 
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第 1 条 和 第 2 条 标准 限制 只 展开 那 种 最 可 能 从 指令 调度 获 益 的 循环 。 第 3 条 保证 被 展开 的 代 
码 块 较 短 ， 而 不 至 于 对 高 速 缓存 的 性 能 造成 负面 影响 。 最 后 一 条 标准 阻止 编译 器 展开 那 种 难于 
判定 应 在 什么 时 候 出 口 并 执行 它 的 剩余 迄 代 的 卷 起 副本 的 循环 ， 例 如 那 种 对 链表 进行 遍历 的 循 
环 。 展 开 因 子 可 能 都 从 2 开始 ， 这 取决 于 循环 体 的 具体 内 容 ， 但 一 般 不 会 大 于 4， 并 且 几 平 决 不 
会 大 于 8， 尽 管 将 来 VLIW 机 器 的 发 展 可 能 为 使 用 较 大 的 展开 因子 提供 更 好 的 支持 。 

最 好 是 给 程序 员 提 供 有 关 的 编译 选项 或 编译 指示 ， 以 便 他 们 可 以 指明 哪些 循环 可 以 展开 ， 
以 及 它们 使 用 什么 展开 因子 。 

循环 展开 一 般 会 增加 有 效 的 指令 级 并 行 性 ， 尤 其 是 在 对 循环 体 的 这 些 副本 也 同时 执行 其 他 
一 些 转换 来 删除 不 必要 依赖 的 情况 下 。 这 些 转换 包括 软件 寄存 器 重 命名 〈 参 见 17.4.5 节 )、 变 量 
扩张 (参见 下 一 节 ) 及 指令 归并 (参见 18.12 节 )。 利 用 依赖 关系 测试 来 消除 存储 地 址 之 间 潜 在 
的 别名 也 能 删除 依赖 关系 。 因 此 ， 循 环 展开 对 大 部 分 处 理 机 实现 ， 尤 其 是 超标 量 和 VLIW 实 现 ， 
具有 相当 重要 的 好 处 。 

指令 归并 能 使 重 命名 有 更 多 可 用 的 寄存 器 。 作 为 指令 归并 的 例子 ， 考 虚 下 面 的 代码 序列 

r2 ~ rl+1 

r3 ~ r2 * 2 


假设 我 们 为 一 台 具 有 移 位 加 指令 的 机 器 (如 PA-RISC) 生成 代码 , 并 且 假 定 r2 在 这 之 后 是 死 的 ， 
则 可 以 将 它 转变 成 
r3 ~ 2 * rl + 2 
从 而 使 得 r2 成 为 自由 可 用 的 。 
17.4.4 变量 扩张 


在 展开 因子 为 n 的 已 展开 循环 体 中 的 变量 扩张 (variable expansion) 选择 这 种 变量 : 它 可 以 
扩张 成 个 独立 的 副本 ， 其 中 每 个 对 应 于 一 个 循环 体 副 本 ， 并 且 所 有 副本 在 循环 出 口 处 可 以 被 
归并 ， 以 产生 原来 的 变量 应 当 具 有 的 值 。 这 种 扩张 具有 我 们 所 希望 的 性 质 ， 即 它 能 够 降低 循环 
中 依赖 关系 的 数量 ， 从 而 使 得 指令 调度 器 对 它 更 有 效果 。 

比较 容易 检测 出 来 的 可 进行 扩张 的 变量 包括 累加 器 、 归纳 变量 和 搜索 变量 。 图 17-31a 给 出 
了 这 三 种 类 型 变量 的 例子 ， 图 17-31b 给 出 了 以 展开 因子 2 展开 该 循环 ， 并 对 其 中 的 累加 器 、 归 
纳 变 量 和 搜索 变量 进行 扩张 后 的 结果 。 注 意 ， 有 些 归 纳 变量 (数组 元 素 的 地 址 ) 没有 扩张 ， 因 
为 这 个 例子 是 HIR 代 码 ; 不过， 它们 也 应 服从 于 变量 扩张 。 

这 三 种 类 型 变量 的 扩张 算法 大 体 上 是 类 似 的 ， 我 们 只 讨论 累加 器 变量 扩张 方法 ， 而 将 修改 
此 方法 以 适应 其 他 两 种 类 型 变量 的 任务 留 给 读者 完成 。 

为 了 确定 一 个 变量 是 否 是 加 法 累加 器 .( 乘 法 累加 器 也 有 可 能 ， 但 不 常见 ) ， 我 们 要 求 它 是 
在 循环 体 中 仅 由 加 法 或 减法 指令 使 用 和 定 值 的 变量 ， 并 且 展 开 的 循环 体 含有 这 种 指令 的 ?个 副 
本 ， 每 个 副本 对 应 一 个 循环 体 ， 其 中 4 是 展开 因子 。 一 旦 确定 出 一 个 变量 是 加 法 累加 器 ， 我 们 
就 用 一 些 新 的 临时 变量 替代 它 的 第 2 到 第 x 个 副本 ， 同 时 在 循环 入 口 处 将 所 有 新 临时 变量 初始 化 
为 0， 并 在 循环 出 口 处 将 这 些 临 时 变量 加 到 原来 的 变量 之 上 。 C 

在 图 17-31 的 例子 中 ，acc 是 一 个 累加 器 。 在 展开 的 版 本 中 ， 在 循环 体 的 第 2 个 副本 内 它 已 
被 accl 所 替代 ; 同时 accl1 在 进入 该 循环 之 前 已 初始 化 为 0， 并 且 在 循环 出 口 增 加 了 一 条 将 它 
加 至 acc 的 加 法 指令 。 
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for i €- 1 to 100 do for i «- 1 by 2 to 99 do 
acc < acc + a[il*b[il acc €- acc + a[il*b[i] 
if a[i] > max then if a[i] > max then 
max < ali] max < ali] 
imax € i imax < i 


endif endif 
， acci «- acci + a[ii]*b[ii] 
if a[ii1] > maxi then 
maxi «- a[ii1] 
imaxi < il 
endif 
il < il +2 
endfor endfor 
acc © acc + acci 
if maxi > max then 
max €- maxi 
imax <€- imaxi 
endif 


a) b) 
图 17-31 a) 一 个 含 累加 器 (acc)、 归 纳 变 量 (i) 和 搜索 变量 (max 和 imax) 的 HIR 循 环 ， 
b) 展开 因子 为 2， 并 且 扩 张 了 累加 器 、 妇 纳 变量 和 搜索 变量 后 的 展开 循环 


17.4.5 ”寄存 器 重 命 名 


寄存 器 重 命名 (register renaming) 是 一 种 可 增加 代码 调度 灵活 性 的 转换 。 它 可 以 施加 于 低 
级 代码 ( 按 我 们 的 情形 ， 即 LIR 代 码 )， 并 通过 用 另外 的 寄存 器 替代 某 些 寄存 器 的 使 用 ， 来 删除 
指令 之 间 由 于 使 用 相同 的 寄存 器 而 导致 的 不 必要 的 依赖 关系 。 例 如 ， 在 图 17-32a 所 示 的 基本 块 
中 ， 所 有 4 条 指令 都 使 用 了 f1。 假 如 同时 还 有 f1 在 基本 块 的 出 口 时 是 活跃 的 这 一 信息 ， 则 将 使 
得 这 些 指令 根本 不 可 能 重 排 。 如 图 17-32b 所 示 ， 如 果 用 fE27 替 换 第 1 条 和 第 2 条 指令 中 的 51《〈 假 
设 f27 在 那 一 点 不 是 活跃 的 ) ， 则 使 得 这 些 指令 能 够 按 任意 顺序 被 调度 ， 只 要 它们 保持 了 f27 
和 £1 的 定 值 出 现在 各 自 的 使 用 之 前 ， 例 如 图 17-32c 所 示 的 一 种 顺序 。 


fi € f2 + 1.0 
[fp*52] «- fi 












£27 < £2 + 1.0 
[fp+52] < £27 


fi <— £3 * 2.0 
£27 < f2 + 1.0 
[fp*40] © f1 
[fp+52] «- f27 


a) b) c) 
17-32 a) 可 以 施加 寄存 器 重 命名 的 LIR 代 码 例子 ，b) 执行 寄存 器 重 命名 后 的 结果 ， 
c) 由 于 重 命名 而 使 其 成 为 可 能 的 一 种 可 选 指令 调度 
我 们 假定 所 有 寄存 器 都 是 相同 类 型 的 ， 以 此 略微 简化 关于 重 命名 的 讨论 。 对 于 更 为 实际 的 


整数 和 浮 点 寄存 器 集合 分 开 的 情况 ， 我 们 需要 应 用 这 个 算法 两 次 ， 每 种 寄存 器 集合 应 用 一 次 。 
给 定 了 由 指令 LBlock [i] (1. .n] 组 成 的 基本 块 i， 我 们 首先 需要 确定 下 面 儿 个 寄存 器 集合 : 


fi « f3 * 2.0 
[fp+40] < fi 


fi < f3 * 2.0 
[fp+40] <- fi 
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1. Regs 是 体系 结构 提供 的 所 有 通用 寄存 器 的 集合 。 . 

2. RegsUsed (i) 是 在 基本 块 中 使 用 或 /和 定 值 的 寄存 器 集合 。 

3. RegsLiveEntry (i) 是 在 基本 块 i 入 口 处 活跃 的 寄存 器 集合 。 

4. RegsLiveExit (i) 是 在 基本 块 出 口 处 活跃 的 寄存 器 集合 。 

5. DefsLiveExit (i) 是 它 所 定 值 的 寄存 器 在 基本 块 i 出 口 处 活跃 的 指令 索引 集合 。 

这 些 集 合 可 采用 检测 和 数据 流 分 析 相 结合 的 方法 来 确定 。 于 是 ， 基 本 块 i 中 可 用 于 重 命名 
的 寄存 器 集合 AvailRegs 是 

AvailRegs =Regs — (RegsUsed(i) U RegsLiveEntry(i) U RegsLiveExit(i)) 
下 面 ， 对 于 RegsUsed (i) 中 的 每 一 个 寄存 器 +r， 我 们 计算 DefUses(r)， 它 是 由 这 种 偶 对 <j, s> 
组 成 的 最 大 序列 ， 其 中 j 是 基本 块 i 中 定 值 的 那 条 指令 的 索引 ，s 是 基本 块 i 中 使 用 指令 j 所 计算 的 
7 的 值 的 那些 指令 的 索引 集合 ; 此 偶 对 序列 的 元 素 按 定 值 顺 序 排序 。 因 此 ， 只 要 在 AvailRegs 
中 还 有 寄存 器 ， 并 且 在 DefUses (r) 中 有 其 定 值 在 基本 块 的 出 口 处 已 死去 的 偶 对 ， 我 们 就 用 从 
availRegs 中 选择 的 寄存 器 替代 在 定 值 和 使 用 7 的 指令 中 寄存 器 r 的 出 现 。 

对 于 图 17-32a 中 基本 块 的 例子 ( 称 它 为 A)， 这 些 集合 如 下 : 

Regs = {f0,f1,..., £31} 

RegsUsed (A) = {f1,£2,£3} 

RegsLiveEntry(A) = (f2,f3) 

RegsLiveExit(A) = {f1} 

DefsLiveExit(A) = {3} 

AvailRegs = {£0,f4,..., £31} 

DefUses(f1) = [C1,{2}>,<3,{4}>] 


因此 图 a) 中 第 1 行 £1 的 定 值 和 第 2 行 £1 的 使 用 被 从 AvVailRegs 中 随机 选择 的 寄存 器 £27 所 替 
代 ， 结 果 如 图 b) Bron. 

图 17-33 给 出 了 对 基本 块 内 寄存 器 进行 重 命名 的 ICAN 代 码 。 我 们 假定 已 经 预先 计算 好 了 
Regs, RegsUsed(). RegsLiveEntry(), RegsLiveExit () kDefsLiveExit(). 代 
码 中 用 到 了 下 面 一 些 过 程 : 

1. Defines (inst, r) 返回 true， 如 果 指 令 inst 定 义 寄存 器 r; 否则 返回 false。 

2. Uses (inst,r) 返回 true， 如 果 指 令 inst 使 用 寄存 器 r 作 为 操作 数 ; 否则 返回 false。 

3. replace, result(i, LBlock, m, ar) 用 ar 替代 指令 LBlock [m] [i 中 的 结果 寄 
存 器 。 

4. replace, operands (i, LBlock, m, r, ar) 用 ar 替 代 7 在 指令 LBlock[m] [i] 中 作为 操 
作 数 寄存 器 的 所 有 出 现 。 

注意 ， 如 果 寄 存 器 r 属 于 RegsLiveEntry (m) 但 不 属于 RegsLiveExit (m) ， 则 7 在 
基本 块 中 最 后 一 次 使 用 之 后 就 成 为 了 可 用 于 重 命名 的 寄存 器 ; 我 们 在 代码 中 没有 考虑 这 种 
情况 。 

寄存 器 重 命名 也 可 以 修改 成 适应 扩展 基本 块 ， 只 要 我 们 对 每 一 个 出 口 基本 块 ， 保 证 在 其 出 
口 是 活 跃 的 每 一 个 寄存 器 的 最 后 定 值 不 会 改变 即 可 。 例 如 ， 图 17-34 的 代码 中 ， 已 知 E1 在 从 B3 
的 出 口 处 是 活跃 的 ， 但 从 B2 的 出 口 处 不 是 活跃 的 ， 我 们 必须 保存 f1 在 基本 块 B1 中 的 定 值 ， 但 
可 以 在 B2 中 重 命名 f1。 
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£17*. 

























Regs: set of Register 
RegsUsed, RegsLiveEntry, RegsLiveExit: integer 一 > set of Register 
DefsLiveExit: integer —> set of integer . 


procedure Register Rename(m,ninsts,LBlock) 
m: in integer 
ninsts: in array [1::m] of integer 
LBlock: inout array [--] of array [:-] of LIRInst 
begin 
AvailRegs: set of Register 
r, ar: Register 
def, i, j: integer 
uses: set of integer 
DefUses: Register 一 > sequence of (integer x set of integer) 
AvailRegs := Regs - (RegsUsed(m) u RegsLiveEntry(m) u RegsLiveExit (m)) 
if AvailRegs = Ø then 
return 
fi 
for each r € RegsUsed(m) do 
DefUses(r) :- [] 
i := 1 
while i < ninsts[m] do 
if Defines(LBlock[m][i],r) then 
def := i; uses := @ 
for j :- i*i to ninsts[m] do 
if Uses(LBlock([m][j],r) then 
uses u= {j} 
fi 
if Defines(LBlock[m] [j],r) then 
ijo 
goto L1 
fi 






















L1: od 
. fi 
DefUses(r) @= [<def,uses>] 
i += 1 
od 
od 
for each r € RegsUsed(m) do 
while |DefUses(r)| > 0 do 
def := (DefUses(r)+1)e@1 
uses := (DefUses(r)11)02 
DefUses(r) e= 1 
if def £ DefsLiveExit(m) then 
ar := ¢AvailRegs 
AvailRegs -= {ar} 
replace. result (def ,LBlock,m, ar) 
for each i € uses do 
replace_operands(i,LBlock,m,r,ar) 
od 
fi 
od 
od 


end || Register Rename 





图 17-33 对 基本 块 内 寄存 器 重 命名 的 ICAN 代 码 
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fi < f2 * 1.0 
[fp*52] < fl 


ft < f2 + 2.0 
[fp+36] «- f1 
f3 < fi * 1.5 


B2 B3 


E1734 扩展 基本 块 寄存 器 重 命名 的 例子 


17.4.6 软 流水 的 其 他 方法 


软 流水 研究 方面 的 最 新 进展 表明 ， 最 近 几 年 已 提出 了 许多 其 他 的 方法 。 这 些 方法 包括 与 我 
们 的 窗口 调度 方法 类 似 的 环 调度 (circular scheduling)， 以 及 和 我 们 的 展开 - 压 实 方法 类 似 的 各 
种 方法 ， 其 中 包括 : 

1. Lam 用 于 VLIW 的 方法 ; 

2. 最 优 循环 并 行 化 ; 

3. 完美 流水 ; 

4. Bodin 和 Charot 的 方法 ; 

5. 带 资源 限制 的 软 流水 方法 ; 

6. 分 解 式 软 流水 。 

然而 确定 什么 是 最 好 的 方法 ， 需 要 从 两 个 方面 考虑 ， 即 所 得 到 的 循环 性 能 改善 ， 和 流水 算 
法 的 效率 ， 这 仍然 是 一 个 活跃 的 研究 领域 (关于 详细 的 引文 ， 参 见 17.8 贡 )。 

Ruttenberg 等 人 报告 了 一 个 令 人 感 兴趣 的 实验 。 一 种 最 优 软 流水 算法 叫做 MOST ， 它 是 由 
McGill 大 学 开发 的 ， 被 用 来 替代 MISP 编 译 器 的 流水 优化 器 ， 并 进行 了 一 系列 的 实验 。 这 些 实 
验 将 最 优 算法 与 MIPS 的 启发 式 算法 相 比 较 。 在 编译 的 所 有 SPEC92 基 准 测试 程序 中 ， 发 现 用 最 
优 算法 生成 的 调度 只 有 一 个 循环 优 于 启发 式 算法 ， 但 是 最 优 算法 需要 的 时 间 是 启发 式 算法 使 用 
时 间 的 3 000 倍 。 因 此 ， 软 流水 优化 肯定 值得 包含 在 激进 优化 编译 器 中 ， 并 且 启 发 式 方法 对 大 
部 分 程序 都 能 具有 很 好 的 效果 。 
17.4.7 层次 归 约 

层 痰 归 约 (hierarchical reduction) 是 由 Lam ([Lam88] 和 [Lam90]) 开发 的 对 含有 控制 流 结 
构 的 循环 进行 流水 处 理 的 一 种 技术 。 共 方法 由 两 部 分 组 成 ， 一 部 分 处 理 条 件 ，' 另 一 部 分 处 理由 
套 循 环 。 为 了 处 理 嵌 套 循环 ， 流水 调度 从 最 内 层 循 环 开始 由 里 向 外 进行 ， 随 着 每 一 个 循环 被 调 
度 ， 它 将 已 调度 过 的 循环 归 约 成 单个 结 点 ， 同 时 在 结 点 上 附 有 该 循环 的 调度 结果 和 资源 限制 。 

为 了 处 理 条 件 ， 首 先 分 别 进行 Lhen 分 支 和 else 分 支 上 的 基本 块 调 度 ， 然 后 归 约 这 个 条 件 
分 支 为 单个 结 点 ， 同 样 在 结 点 上 附着 整个 1f-then-else 的 调度 结果 和 资源 限制 。 这 样 做 的 
结果 会 导致 较 短 的 分 支 具有 与 较 长 分 支 相 同 的 延迟 。 但 它 并 不 需要 生成 满足 这 种 限制 的 代码 一 一 
插入 不 必要 nop 仅 仅 浪费 空间 ， 但 对 调度 没有 改善 。 mE 

作为 对 含有 条 件 分 支 的 循环 施加 软 流水 的 例子 ， 考 虑 图 17-35a 中 的 代码 ， 假 定 我 们 编译 的 
目标 机 与 为 图 17-15 中 代码 所 假定 的 处 理 机 相同 。 如 果 我 们 用 窗口 调度 将 循环 中 前 两 条 指令 
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〈《 带 星 号 的 两 条 1Q) 调度 到 循环 体 的 末尾 ， 并 且 移 动 这 两 条 取 数 指令 到 条 件 转移 的 两 个 分 支 ， 
则 得 到 图 17-35b 中 的 代码 。 然 后 我 们 能 够 调度 then 和 else 分 支 ， 并 且 如 果 希 望 的 话 ， 可 以 做 
进一步 的 流水 处 理 。 
[r2],r3 
(r1],f0 


r3,0 
L2 


(r2) ,r3 
{r1] ,f0 
r3,0 

L2 


r4,i,r4 
£2,£0,£3 


r4,i,r4 
£2,f0,£3 
[r2],r3 
Er1] ,£0 
L3 L3 
13,f0,f3 
£3, [r1] 
L1 


f3,f0,f3 
£3, [r1] 
L1a 


[r2],r3 
[ri],f0 


r2,4,r2 
r1,4,r1 
ri,4 
[r2],r3 
[r1],fO 
Lia 


r3,0 
L2a 


r4,1,r4 
L3a 
f2,f0,f3 
f3,f0,f3 
£3,(r1] 
r2,4,r2 
ri,4,r1 





a) 


图 17-35 a) 一 个 含 条 件 转移 的 SPARC 循 环 ，b) 对 它 进行 窗口 调度 并 移动 带 星 号 
的 两 条 1d 指 令 到 此 条 件 转移 的 两 个 分 支 后 的 结果 


17.5 踪迹 调度 

踪迹 调度 是 由 Fisher [Fish81] 开 发 的 一 种 指令 调度 方法 ， 这 种 方法 比 我 们 迄今 讨论 过 的 所 
有 方法 都 更 具 进 取 性 ， 它 对 于 VLIW 机 器 和 发 射 宽度 大 于 8 的 超标 量 实现 特别 有 用 。 

踪迹 (trace) 是 相对 某 种 输入 数据 而 执行 的 一 个 指令 序列 ， 该 序列 可 含有 分 支 ， 但 不 含 循 
环 。 踪 迹 调度 (trace scheduling) 从 执行 频率 最 高 的 踪迹 开始 ， 用 基本 块 调度 方法 (如 17.1.2 
节 所 讨论 的 方法 ) 来 调度 每 一 条 踪迹 上 的 所 有 指令 。 然 后 它 根 据 需 要 在 每 一 条 踪迹 的 入 口 或 出 


口 加 上 补偿 代码 (compensation code) 来 校正 由 于 乱 序 执行 在 踪迹 的 人 口 和 出 口 处 所 产生 的 不 
一 致 性 。 在 进行 调度 之 前 一 般 先 将 循环 体 展开 若干 次 。 这 个 调度 和 补偿 过 程 一 直 重 复 直至 所 有 
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标准 的 方法 来 调度 ， 例 如 基本 块 和 软 流水 方法 。 尽 管 踪迹 调度 利用 估计 的 执行 剖面 来 确定 踪迹 
可 以 获得 十 分 好 的 效果 ， 但 同 大 多 数 调度 方法 一 样 ， 当 提供 反馈 式 的 剖面 信息 时 ， 它 的 调度 效 
果 更 好 。 

作为 踪迹 调度 的 一 个 简单 例子 ， 考 虑 图 17-36 的 流 图 。 假 设 我 们 判别 出 经 过 此 流 图 的 最 
频繁 执行 路 径 由 基本 块 B1、B3、B4、B5 和 B7 组 成 。 因 为 B4 是 循环 体 ， 故 这 条 路 径 划分 为 
三 条 踪迹 ， 一 条 由 B1 和 B3 组 成 ， 第 二 条 由 循环 体 B4 组 成 ， 第 三 条 包括 B5 和 B7。 这 三 条 踪 
迹 都 将 独立 地 进行 调度 ， 并 且 ， 以 B1 和 B3 这 条 踪迹 为 例 ， 其 补偿 代码 应 当 加 在 B1 的 N 分 支 
对 应 的 出 口上 。 假 设 基本 块 BL、B2 和 B3 中 的 代码 如 图 17-37a 所 示 ， 在 图 17-37b 中 ， 踪 迹 
调度 已 决定 将 赋 B1 中 的 值 y -=x-y 跨 越 分 支 移 到 基本 块 B3; 因此 必须 在 B2 的 开始 放置 这 条 
指令 的 一 个 副本 作为 补偿 代码 。 在 这 三 条 踪迹 都 已 调度 之 后 ，B2 和 B6 每 一 个 则 作为 单独 的 
踪迹 进行 调度 。 


Biz x *-x *1 Bi x <= xt 
y^ xy 
if x « 5 goto B3 if x « 5 goto B3 
soy ec X 
[Ze pe Zz z*rx*2z 
xo €: xxl x «€-x + 1 


goto B5 goto B5 
sy e Xy 

yey J 24. 

x «sx x x — 12 


a) b) 
图 17-37 a) 图 17-36 中 由 B1 和 B3 组 成 的 踪迹 的 MIR. 
一- 代码 例子 (连同 B2 中 的 代码 )，b) 调度 操作 
图 17-36 踪迹 调度 的 一 个 例子 并 加 补偿 代码 之 后 的 结果 





对 VLIW 和 高 度 超标 量 的 机 器 应 用 踪迹 调度 常常 能 获得 很 大 的 性 能 改善 ， 但 它 也 导致 代码 
体积 的 大 量 增 加 ， 并 且 当 程序 的 行为 随 输入 变化 很 大 时 ， 它 的 性 能 会 很 差 且 不 稳定 。 


17.6 渗透 调度 


渗透 调度 (percolation scheduling) 是 由 Nicolau [Nico86] 开 发 的 另 一 种 激进 的 跨 基本 块 调度 
方法 。 这 种 方法 作用 于 由 计算 结 点 组 成 的 并 行 计算 图 (parallel computation graph)， 简 称 PCG。 
其 中 ， 每 一 个 计算 结 点 (computation node) 包含 一 组 可 并 行 执行 的 操作 ， 一 棵 可 确定 后 继 结 点 
集合 的 控制 流 操作 树 ， 以 及 一 个 在 树 为 空 时 使 用 的 缺 省 后 继 。 显 然 ， 这 种 表示 与 我 们 曾 给 出 的 
各 种 中 间 代 码 形式 不 同 ， 那 些 中 间 代 码 形式 都 强调 基本 块 是 顺序 执行 的 。 一 个 计算 结 点 要 么 是 
两 个 称 为 entry 和 exit 的 特殊 结 点 之 一 ; 要 么 是 这 样 一 个 结 点 ， 此 结 点 的 组 成 是 : 一 组 可 以 并 
行 执行 的 操作 O (所 有 的 取 数 操作 都 先 于 存 数 操作 )， 一 个 有 条 件 地 选择 一 组 后 继 计 算 结 点 的 延 
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续 树 了 7， 和 一 个 当 7 为 空 时 使 用 的 延续 C。( 在 图 17-39 中 ， 类 型 PCGnode 用 于 表示 计算 结 点 )。 
渗透 调度 使 用 另外 一 种 类 型 的 依赖 关系 ， 叫 做 写 — SRIRAM (write-live dependence), id 
做 全 ， 其 定义 如 下 。 令 是 计算 结 点 ，x 是 它 的 后 继 之 一 ， 如 果 v* 存 在 另外 一 个 后 继 w， 并 且 在 
边 v-=>w 上 存在 某 个 活跃 变量 ， 而 结 点 u 写 此 活跃 变量 ， 则 v OU x。 变 量 在 一 条 边 上 是 活跃 的 ， 
如 果 存 在 着 一 条 从 这 条 边 开 始 通 向 并 行 计算 结 点 图 出 口 的 路 径 ， 在 此 路 径 上 存在 着 对 该 变量 先 
于 写 的 读 操 作 。 图 17-38 中 ,变量 n 导 致 了 一 个 写 - 活 跃 依赖 y 6” u 
渗透 调度 由 4 种 可 作用 于 PCG 的 基本 转换 组 成 ， 这 4 种 转换 分 别称 为 结 点 葡 除 、 操作 移动 、 
条 件 移动 和 统一 。 第 一 种 转换 删除 已 经 变 成 空 的 结 点 ; 第 二 和 第 三 种 转换 分 别 移 动 操作 和 条 件 
到 前 驱 结 点 ; 最 后 一 种 转换 将 一 个 结 点 的 所 有 后 继 结 点 中 相同 的 运算 集合 移动 到 该 结 点 中 。 
这 些 作 用 于 PCG 的 转换 算法 可 以 十 分 简单 ， 也 可 以 相当 复杂 。 例 如 ， 我 们 可 以 构造 4 种 谓 
i) (分 别 是 Delete_Noae_RApplic()、Move_oper_RApplic()、 
Move_Cond_Applic()MUnify_Applic()), 测试 是 否 可 对 一 个 以 特定 PCG 结 点 作为 根 
的 子 图 施加 这 些 转 换 ， 并 构造 实施 这 4 种 转换 的 4 个 过 程 (分 别 是 Delete_Node()、 
Move -oper (), } Move. Cond () 和 Unify () )。 给 定 这 些 谓 词 和 过 程 ， 图 17-39 是 一 个 简单 的 
渗透 调度 程序 。 它 尝试 对 每 一 个 结 点 应 用 这 4 种 转换 ， 并 重复 这 些 转换 直到 没有 结 点 为 止 。 但 
是 ， 这 样 做 并 不 完全 ， 因为 不 能 保证 对 任意 PCG， 此 算法 会 终止 。 还 需要 做 的 是 将 PCG 划 分 
成 各 个 部 分 是 DAG 的 分 量 ， 然 后 对 这 些 分 量 施加 此 算法 ， 这 样 才能 保证 算法 终止。 
procedure Perc, Schedule. 1(r) 
r: in PCGnode 
begin 
Cand: set of PCGnode 
n: PCGnode 
again: boolean 
repeat 
again := false 
Cand := ír) 
for each n € Cand do 
if Delete, Node Applic(n) then 
Delete. Node (n) 
Cand v= Succ(n) 
again := true 
elif Move Oper. Applic(n) then 


Move. Oper (n) 
Cand v= Succ(n) 































again := true 
: elif Move_Cond_Applic(n) then 

Move. Cond (n) 
Cand u= Succ(n) 
again :- true 

elif Unify Applic(n) then 
Unify(n) 

, Cand v= Succ(n) 

again := true 

fi 

Cand -= {n} 

od 
until !again 
end || Perc_Schedule_i 





图 17-38 5 -活跃 依赖 的 例子 ， 即 
由 于 变量 n， 有 v ou 图 17-39 一 种 简单 的 渗透 调度 算法 
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显然 ,渗透 调 度 也 能 够 与 其 他 转换 机 制 和 其 他 类 型 的 优化 有 益 地 结合 在 一 起 。 例 如 ， 将 一 
个 操作 移 到 一 个 结 点 中 可 能 给 公共 子 表达 式 删 除 带 来 机 会 。 

Nicolau 从 这 4 种 基本 转换 出 发 ， 定 义 了 一 系列 的 元 转换 ， 其 中 包括 : (1) 一 种 称 为 
migrate () 的 转换 ， 这 种 转换 在 依赖 关系 允许 的 范围 内 ， 将 一 个 操作 尽 可 能 地 向 PCG 的 上 部 
移动 ; (2) 扩充 这 种 技术 以 适应 不 可 归 约 PCG， 即 ， 适 应 具有 多 个 入 口 结 点 的 循环 ; (3) 一 种 称 
为 compact_path () 的 转换 ， 这 种 转换 对 踪迹 调度 进行 了 推广 ， 使 得 操作 沿 最 高 执行 频率 路 
径 向 上 移动 。 


17.7 小 结 


这 一 章 集中 讨论 了 为 改善 性 能 而 调度 指令 的 有 关 方法 , 对 于 大 多 数 机 器 和 大 多 数 程序 而 言 ， 
这 些 方 法 是 一 些 最 重要 的 优化 。 我 们 的 讨论 涵盖 了 分 支 调度 、 基 本 块 调度 、 跨 基本 块 调度 、 软 
流水 (包括 循环 展开 、 变 量 扩 张 、 寄 存 器 重 命名 和 层次 妇 约 )、 前 瞻 与 上 推 、 踪 迹 调度 及 渗透 
调度 。 

在 认识 到 几乎 所 有 的 调度 问题 ， 即 使 是 它们 最 简单 的 形式 至 少 都 是 NP 困 难 的 之 后 ， 我 们 
介绍 了 在 实际 中 几乎 总 是 很 好 的 几 种 启发 式 方法 。 

基本 块 和 分 支 相 结合 的 调度 是 所 讨论 的 方法 中 最 容易 实现 的 一 种 ; 即使 是 这 种 方法 ， 它 也 
能 使 执行 速度 产生 较 大 的 改善 ， 常 常 至 少 能 改善 10%。 

跨 基本 块 和 前 瞻 调 度 实现 起 来 较 难 一 些 ， 但 由 于 它 能 在 基本 块 之 间 移 动 指令 ， 从 而 改善 了 
基本 块 的 构成 。 这 些 方法 常常 能 更 大 地 缩短 执行 时 间 ， 尤 其 是 当 硬 件 支持 前 瞻 取 指令 时 。 

软 流水 (以 及 循环 展开 、 变 量 扩张 、 寄 存 器 重 命 名 和 层次 归 约 ) 对 循环 体 进行 操作 ， 它 能 
使 性 能 有 更 大 的 改善 。 有 若干 种 不 同 的 软 流水 方法 、 我 们 介绍 了 共 中 的 两 种 ， 一 种 较 易 实现 ， 


另 一 种 较 难 但 通常 更 有 效 。 但 是 ， 如 17.4.6 节 列 出 的 各 种 方法 所 显示 的 ， 哪 一 种 方法 是 最 好 的 


目前 还 没有 定论 。 

循环 展开 是 一 种 重复 循环 体 若 干 次 ， 并 相应 调整 循环 控制 代码 的 转换 。 如 果 编 译 器 不 包含 
软 流 水 ， 我 们 建议 在 图 17-40 的 C4 框 中 死 代码 删除 和 代码 提升 之 间 进 行 循环 展开 。 

变量 扩张 是 一 种 辅助 技术 ， 它 可 以 分 离 已 展开 的 循环 体 的 每 个 副本 中 那 种 将 结果 存放 到 一 
个 特定 变量 的 操作 。 它 为 每 个 副本 提供 一 个 这 种 变量 ， 并 且 在 循环 结束 之 后 合并 它们 的 结果 。 
寄存 器 重 命名 类 似 于 变量 扩张 ， 它 的 作用 也 是 消除 那 种 本 来 不 必 使 用 相同 寄存 器 的 指令 之 间 存 
在 的 依赖 关系 。 

上 面 讨论 的 所 有 转换 最 好 在 接近 优化 (和 编译 ) 的 最 后 阶段 进行 ， 因 为 为 了 更 加 有 效 ， 它 
们 需要 能 够 精确 模拟 目标 机 的 机 器 代码 形式 或 低级 中 间 代码 形式 。 

踪迹 调度 和 渗透 调度 是 两 种 全 局 代码 调度 方法 ， 对 于 某 些 类 型 的 程序 ， 尤 其 是 对 数组 进行 
运算 的 数值 计算 程序 ， 以 及 某 些 体系 结构 ， 典 型 的 是 高 度 超标 量 和 VLIW 机 器 ， 它 们 都 能 获得 
非常 大 的 好 处 。 这 两 种 优化 方法 最 好 构造 成 优化 处 理 的 驱动 程序 ， 即 ， 我 们 可 以 围绕 这 两 种 类 
型 的 全 局 调度 构建 一 个 优化 器 ， 并 通过 它们 来 调用 其 他 优化 。 

图 17-40 展 示 了 推荐 的 优化 顺序 ， 黑 体 字 标 出 了 与 调度 有 关 的 优化 。 我 们 在 即将 进行 寄存 
器 分 配 之 前 做 指令 调度 (分支 、 基 本 块 、 跨 基本 块 调度 ， 以 及 软 流 水 和 它 的 辅助 转换 )， 并 且 ， 


如 果 寄 存 器 分 配 生 成 了 溢出 代码 ， 则 在 寄存 器 分 配 之 后 重复 一 次 分 支 调 度 和 基本 块 调度 。 不 包 


含 软 流水 的 编译 器 应 当 将 循环 展开 和 变量 扩张 连同 其 他 循环 优化 一 起 , 放置 在 编译 的 较 早 阶 段 。 
踪迹 调度 和 渗透 调度 (如 前 面 描述 的 ) 都 需要 一 种 完整 的 优化 处 理 结 构 。 
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数组 引用 的 标量 赫 换 
数据 高 速 缓 在 优化 


过 程 集成 
尾 调用 优化 ， 包 括 尾 递归 删除 
Re Bie ett 
稀有 条 件 常数 传播 
过 程 间 常数 传播 
过 程 特 殊 化 和 克隆 
稀 右 条 件 常 数 传播 









































全 局 值 编 号 
局 部 和 全 局 复写 传播 
稀有 条 件 常数 传播 
死 代码 删除 


C1 





局 部 和 全 局 公共 子 表 达 式 删除 
循环 不 变 代码 外 提 





部 分 宛 余 删除 


死 代 码 删 除 
代码 提升 

归纳 变量 强度 削弱 

线性 函数 测试 替代 

归纳 变量 消除 

不 必要 边界 检查 删除 
控制 流 优化 


C4 


RBA 

分 支 优化 和 条 件 传 送 
死 代 码 删除 
软 流水 ， 附 带 循环 展开 、 变 量 扩 张 、 
寄存 器 重 命名 和 层次 归 约 
基本 块 和 分 支 调度 1 

图 着 色 寄存 器 分 配 
基本 块 和 分 支 调度 2 
RAI Y ARA GHTO 


分 支 预测 


HERNAN 
RBS A NASRI 


图 17-40 优化 顺序 ， 黑 体 字 标 出 了 调度 有 关 的 优化 
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17.8 进一步 阅读 


Rymarczyk 编 写 的 关于 最 有 效 地 利用 IBM System/370 流 水 处 理 机 的 汇编 语言 程序 员 指南 是 
[Ryma82]。MIPS-X 的 描述 见 [Chow86]。 

基本 块 调度 是 NP 困 难 的 问题 ， 有 关 证 明 见 [GarJ79]。 使 用 表 调 度 的 基本 块 调度 器 有 
[GibM86] 和 [Warr90] 中 介绍 的 那些 调度 器 。 对 于 具有 一 个 以 上 相同 流水 线 的 机 器 ， 表 调度 产生 
的 调度 不 超过 最 优 调度 的 一 倍 的 证 明 是 由 Lawler 等 人 在 [LawL87] 中 给 出 的 。 

Smotherman 等 人 [SmoK91] 调 查 了 DAG 的 类 型 和 在 一 系列 已 实现 的 调度 器 中 使 用 的 启发 式 
策略 ， 其 中 包括 由 Gibbons 和 Muchnick[GibM86]、Krishnamurthy [Kris90]. Schlansker [Schl91]. 
Shieh 和 Papachristou [ShiP89]、Tiemann [Tiem89] 和 Warren [Warr90] 等 人 开发 的 方法 。Hennessy 
和 Gross 的 机 器 级 DAG 的 描述 见 [HenG83]。 平 衡 式 调度 的 描述 见 [KerE93] 和 [LoEg95]。 
Golumbic 和 Rainish 关 于 有 助 于 处 理 POWER 分 支 延 迟 模 的 转换 是 在 [GolR90] 中 发 现 的。 

不 幸 的 是 ， 对 GNU 的 指令 调度 生成 器 没有 非常 好 的 介绍 。[Tiem89] 中 介绍 了 一 种 调度 ， 这 
种 调度 是 GNU 指 令 调度 生成 器 的 基础 。 对 GNU 的 调度 器 生成 器 最 好 的 描述 是 它 的 实现 代码 ， 
即 在 GNU 发 布 的 C 编 译 器 版 本 主 目录 中 的 文件 genattrtab.c， 以 及 在 config 子 目录 中 的 机 
器 描述 文件 machine.md。 

[Wall92] 、[BerC92] 和 [MahR94] 中 有 关于 当前 使 用 的 跨 基 本 块 边界 调度 方法 的 讨论 。 
[EbcG94] 讨 论 了 将 为 VYLIW 开 发 的 调度 技术 应 用 于 超标 量 RISC 的 方法 。 

前 瞻 取 和 如 何在 调度 中 利用 它们 和 的 有 关 讨 论 见 [RogL92]、[ColN87]、[WeaG94] 和 
[Powe93]。 

[EbcG94] 介 绍 了 前 瞻 调 度 和 反 前瞻 调 度 。[GolR90] 和 [BerR91] 描 述 了 更 早 的 前 瞻 调 度 方法 。 

环 调度 的 描述 见 [Jain91]。 与 我 们 的 展开 — 压 实 方法 类 似 的 一 些 流水 线 调 度 的 介绍 如 下 : 





方 dà 引 x 
Lam 的 VLIW 方 法 [Lam88] 
最 优 循环 并 行 化 [AikN88a] 和 [Aike88] 
完美 流水 [AikN88b] 和 [Aike88] 
Bodin 和 Charot 的 方法 [BodC90] 
带 资源 约束 的 方法 [EisW92] 和 [AikN91] 
分 解 式 软 流水 [WanE93] 





MIPS 编 译 器 使 用 的 软 流 水 方法 、McGill 大 学 开发 的 最 优 流水 算法 MOST， 以 及 关于 它们 的 
比较 见 [RutG96]。 

Mahlke 等 人 在 [MahC92] 中 介绍 了 变量 扩张 。 

层次 归 约 的 详细 内 容 可 以 在 [Lam881] 和 [Lam90] 中 找到 。 踪 迹 调 度 的 介绍 见 [Fish81] 和 
[Elli85]。 首 先 介绍 涂 透 调度 的 是 [Nico86]。 


17.9 练习 


17.1 对 于 17.1.2 节 给 出 的 每 一 种 启发 式 ， 写 出 一 个 只 应 用 该 启发 式 便 能 提供 最 好 调度 的 
LIR 指 令 序列 ， 和 一 个 不 能 提供 最 好 调度 的 LIR 指 令 序 列 。 

17.2 17.4.3 节 间接 提 到 了 对 展开 — 压 实 软 流水 器 所 产生 的 代码 需要 做 的 某 些 修改 。 这 些 
修改 是 什么 ? 为 什么 需要 它们 ? 

17.3 给 出 一 个 使 用 层次 归 约 对 含有 内 层 循环 和 if-then-else 结 构 的 循环 进行 流水 化 
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的 例子 。 

17.4 给 出 一 个 由 LIR 代 码 组 成 的 基本 块 的 例子 ， 用 以 说 明 寄存 器 重 命名 使 得 调度 产生 的 
代码 的 执行 时 间 至 少 降低 了 三 分 之 一 。 

17.5 修改 图 17-6 的 表 调 度 算法 ， 用 它 来 调度 一 种 发 射 宽度 为 3 的 超标 量 实现 处 理 机 的 代 
码 ， 这 种 处 理 机 有 两 个 整数 流水 线 和 一 个 浮 点 流水 线 。 

ADV 17.6 推广 前 一 练习 的 算法 ， 使 它 能 调度 发 射 宽度 为 的 超标 量 处 理 机 的 代码 和 指令 1， 

Ly do 这 种 发 射 宽度 为 x 的 超标 量 处 理 机 有 m 种 类 型 为 PCl1ass(i) 的 处 理 器 ， 其 
中 每 一 类 有 六 个， 使 得 


Dm 
并 且 指 令 L 能够 在 处 理 机 j 执 行当 且 仅 当 IClass (L) =PClass (j). WI, €S, 拍 的 
576 流出 延迟 和 x 拍 的 结果 延迟 ， 且 这 些 延 迟 与 指令 之 间 的 冲突 无 关 。 


577 17.7 给 出 对 一 个 已 展开 循环 中 的 (a) 累 加 器 和 (b) 搜 索 变 量 进行 扩张 的 ICAN 代 码 。 





第 18 章 控制 流 和 低级 优化 


本 章 的 内 容 涉 及 作用 于 过 程控 制 流 的 一 些 优化 、 死 代码 删除 ， 以 及 其 余 一 些 最 好 在 程序 的 
低级 中 间 代码 上 【例如 LIR ) 或 结构 化 形式 的 汇编 语言 上 来 执行 的 全 局 优化 。 

这 些 优 化 中 有 一 些 〈 如 死 代 码 删除 ) 可 以 在 编译 期 间 多 次 执行 并 取得 良好 效果 ， 因 为 有 好 
几 种 转换 都 会 导致 死 代码 的 产生 。 为 了 减少 被 编译 过 程 的 代码 体积 ， 值 得 迅速 删除 它们 。 

产生 较 长 基本 块 的 控制 流转 换 能 够 避 在 地 增加 指令 级 并 行 性 ， 而 指令 级 并 行 性 对 于 超标 量 
实现 特别 重要 。 

精确 的 分 支 预 测 也 很 重要 ， 因 为 它 增加 了 处 理 机 从 指令 高 速 缓存 、 存 储 器 或 二 级 高 速 缓存 
中 读 取 正 确 的 连续 路 径 的 可 能 性 。 随 着 高 速 缓存 的 延迟 与 CPU 主 频 差距 的 扩大 ， 分 支 预测 的 重 
要 性 也 在 增加 。 

本 章 介绍 的 最 后 几 种 优化 常常 称 为 后 遍 优 化 或 宕 孔 优 化 。 第 一 个 术语 源 于 它们 一 般 属 于 编 
译 最 后 执行 的 几 种 优化 ， 并 且 总 是 在 代码 生成 之 后 进行 。 另 一 个 术语 指 的 是 这 样 一 个 事实 ， 它 
们 之 中 的 许多 优化 常常 是 通过 在 已 生成 的 代码 中 ， 移 动 一 个 小 小 的 窗口 或 一 个 小 孔 来 寻找 可 施 
加 对 应 优化 的 代码 片段 而 实现 的 。 

后 面 将 讨论 的 有 如 下 一 些 转换 : 

1. 不 可 到 达 代 码 的 删除 ， 它 删除 那些 因为 从 入 口 没有 路 径 可 到 达 它 ， 因 而 不 可 能 被 执行 的 
基本 块 。 

2. 伸 直 化 ， 它 通过 用 分 支 目的 地 的 代码 替代 某 种 类 型 的 分 支 指令 而 创建 更 长 的 基本 块 。 

3. 计 化 简 ， 它 删除 这 的 无 用 分 支 或 整个 it 结构 。 

4. 循环 化 简 ， 它 用 直线 代码 替代 某 种 空 的 或 非常 简单 的 循环 。 

5. 循环 倒置 ， 它 用 位 于 循环 结尾 处 的 测试 替代 位 于 循环 开始 的 测试 和 位 于 循环 结尾 处 的 无 
条 件 分 支 。 

6. 无 开关 化 ， 它 将 循环 不 变 条 件 提出 到 循环 之 外 。 

7. 分 支 优化 ， 它 用 较 简单 的 代码 蔡 代 各 种 从 一 个 分 支 到 另 一 个 分 支 的 分 支 代码 。 

8. 尾 融合 ， 或 交叉 跳 转 ， 它 将 具有 相同 尾部 代码 的 基本 块 转换 为 只 有 一 个 基本 块 保留 这 个 
尾部 代码 ， 而 其 他 基本 块 则 转移 到 这 个 基本 块 中 保留 的 尾部 代码 处 。 

9. 条 件 传送 ， 它 用 不 包含 分 支 的 代码 序列 替代 某 些 简单 的 it 结构。 

10. 死 代 码 删 除 ， 它 删除 那些 确实 对 计算 结果 不 起 作用 的 指令 。 

11. 分 支 预 测 ， 它 涉及 静态 地 或 动态 地 预测 一 个 条 件 分 支 指令 是 否 会 导致 控制 转移 。 

12. 机 器 方言 和 指令 归并 ， 它 用 较 快 的 、 完 成 相同 功能 的 单条 指令 替代 一 条 指令 或 一 组 指令 。 


18.1 不 可 到 达 代 码 的 删除 


不 可 到 达 代 码 (unreachable code) 是 无 论 输入 数据 是 什么 都 不 可 能 被 执行 的 代码 。 它 可 能 
一 开始 就 是 对 任何 输入 数据 都 不 会 执行 的 ， 或 者 是 由 于 其 他 优化 而 导致 成 为 这 种 状态 的 。 删 除 
不 可 到 达 代 码 对 程序 的 执行 速度 没有 直接 影响 ， 但 显然 能 减少 程序 占用 的 空间 ， 因 此 可 能 对 程 
序 的 速度 有 间接 的 影响 ， 尤 其 是 它 可 能 改善 程序 的 指令 高 速 缓存 的 利用 率 ， 从 而 对 程序 速度 产 
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进行 从 而 减少 程序 的 执行 时 间 。 

注意 ， 删 除 不 可 到 达 代 码 是 有 时 容易 被 混淆 的 两 种 转换 中 的 一 种 。 另 一 种 转换 是 死 代 码 删 
ER (参见 18.10 节 )， 死 代码 删除 去 掉 那 种 可 执行 、 但 对 要 计算 的 结果 不 起 作用 的 代码 。 

为 了 识别 和 删除 不 可 到 达 代 码 ， 我 们 假设 有 一 个 基本 块 表 ， 并 且 对 于 每 一 个 基本 块 ， 有 其 
前 驱 和 后 继 集合 。 我 们 的 处 理 如 下 : 

1. 设置 again 为 false。 

2. 对 Blockf5] 数 组 进行 和 迭代， 寻找 满足 这 种 条 件 的 基本 块 : 从 entry 块 到 达 这 些 基 本 块 

580] 的 路 径 集合 为 空 。 当 找到 这 种 基本 块 时 便 将 它 删除 ， 同 时 调整 其 前 驱 和 后 继 反 映 它 已 被 删除 ， 

并 设置 again 为 true。 

3. 若 again 为 true， 回 到 步骤 1。 

4. 调整 Block 和 相关 的 数据 结构 ， 以 便 使 所 有 的 基本 块 都 集中 到 B1cck 数 组 的 前 部 。 

注意 ， 如 果 对 于 不 可 到 达 基 本 块 i， 简 单 地 设置 Block [i] =nil 是 可 接受 的 ， 则 可 以 不 需 
要 上 面 的 最 后 一 步 。 

实现 不 可 到 达 代 码 删除 的 例 程 El1im_Unreach_Code () 的 ICAN 代 码 在 图 18-1 中 给 出 。 这 
个 算法 用 到 了 函数 No_Path(i, j) 和 图 4-17 定 义 的 函数 delete_block(i, nblocks, 
ninsts, Block, Succ, Pred). MRMEARIBMAARAGERE, ARNo_Path (i, j) 
XxiBltrue, d EBfalse. 


procedure Elim Unreach, Code(en,nblocks,ninsts,Block,Pred,Succ) 
en: in integer 
nblocks: inout integer 
ninsts: inout array [1--nblocks] of integer 
Block: inout array [1::nblocks] of array [1--nblocks] of Instruction 
Pred, Succ: inout integer —> set of integer 
begin 
again: boolean 
i: integer 
repeat 
again := false 
i := eSucc(en) 
while i <s nblocks do 
if No Path(en,i) then 
ninsts[i] := 0 
Block[i] := nil 
again := true 
delete. block(i,nblocks,ninsts,Block,Succ,Pred) 


until !again 
end || Elim Unreach. Code 


图 18-1 删除 不 可 到 达 代 码 的 算法 


图 18-2a 展 示 了 一 个 MIR 过 程 的 流 图 ， 其 中 含有 不 可 到 达 代 码 ， 即 基本 块 B2、B3 和 B5。 对 

于 这 个 流 图 ，nblocks 的 值 是 7， 表 18-1a 给 出 了 它 的 ninsts、 Pred 和 Succ 数 据 结构 。 在 删 

除 不 可 到 达 代 码 之 后 ，nblocks 的 值 是 4， 数 据 结构 的 值 如 表 18-1b 所 示 ， 结 果 流 图 如 图 18-2b 
BUR. 
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a) b) 
图 18-2 我 们 的 例子 ， 删 除 不 可 到 达 代码 a) 之 前 和 b) 之 后 


表 18-1 图 18-2 中 流 图 的 基本 块 数据 结构 
















ninsts [;] Succ (i) Pred (i) 





entry 0 {Bi} Ø 
B1 3 (B4) (entry) 
a) B2 3 (B3) (B5) 
B3 1 {B5} {B2} 
B4 5 {exit} (B1) 
B5 i (B2,exit) (B3) 
0 Ø {B4,B5} 





ninsts[;] Succ(i) Pred (7) 


entry 0 {B1} g 
b) B1 3 {B4} {entry} 
B4 5 {exit} (B1) 
0 Ø {B4} 


exit 


18.2 伸 直 化 


fe HAL (straightening) 是 一 种 应 用 于 这 样 两 个 基本 块 的 优化 ， 这 两 个 基本 块 最 基本 的 形 
式 是 ， 第 一 个 基本 块 没 有 除 第 二 个 基本 块 之 外 的 后 继 ， 第 二 个 基本 块 没 有 除 第 一 个 基本 块 之 外 
的 前 驱 。 由 于 它们 两 个 都 是 基本 块 ， 因 此 要 么 第 二 个 基本 块 紧 跟 在 第 一 个 基本 块 之 后 ， 要 么 第 
一 个 基本 块 结束 时 一 定 无 条 件 转移 到 第 二 个 基本 块 。 在 第 一 种 情况 下 ,转换 不 需要 做 什么 事情 ， 
在 第 二 种 情况 下 ， 它 用 第 二 个 基本 块 替 换 这 个 分 支 。 图 18-3 给 出 了 一 个 例子 。 基 本 块 B1 只 有 一 
个 后 继 B2 ， 而 B2 惟 一 的 一 个 前 驱 是 B1。 伸 直 转 换 将 它们 合并 成 一 个 新 的 基本 块 B1a。 

但 是 ， 这 种 转换 并 不 像 从 流 图 上 看 起 来 那么 简单 。 考 虑 图 18-4a 中 的 代码 ， 其 中 ， 以 LT 和 
L2 开 始 的 两 个 基本 块 分 别 对 应 于 B1 和 B2。 第 一 个 基本 块 的 结尾 是 一 个 转移 到 L2 的 无 条 件 分 支 
指令 ， 我 们 假定 以 L2 开 始 的 基本 块 没有 其 他 的 前 驱 。 图 18-4b 中 经 转换 后 的 代码 已 用 以 L2 开 始 


wa 
N 
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的 基本 块 的 副本 替换 了 goto ZL2， 同 时 删除 了 这 个 基本 块 原来 的 副本 。 注 意 ， 由 于 这 个 被 复 
制 的 基本 块 以 条 件 转移 结束 ， 因 此 在 它 的 末尾 还 需要 有 一 条 转移 到 原来 基本 块 的 下 降 分 支 的 转 
移 指令 。 显 然 ， 如 果 被 复制 的 这 个 基本 块 也 以 无 条 件 分 支 结尾 ， 则 伸 直 转换 能 得 到 最 大 的 好 处 ， 
因为 它 不 需要 一 条 新 的 转向 下 降 分 支 的 转移 ， 并 且 还 可 以 再 次 应 用 伸 直 转 换 。 





图 18-3 a) 用 于 伸 直 转换 的 一 个 例子 ，b) 应 用 伸 直 转换 后 的 结果 


Li: . .. 
a< b+c 
becr#?2 

a* ati 

if (c » 0) goto L3 
goto L5 


. L6: . .. 
goto L4 goto L4 
>be cx 2 
a*a*íi 
if (c > 0) goto L3 





a) b) 
图 18-4 图 18-3 中 例子 的 MIR 代 码 版 本 


伸 直 化 可 以 推广 到 这 样 的 一 对 基本 块 ， 其 中 第 一 个 基本 块 的 结尾 是 一 个 条 件 转 移 ， 第 二 个 
基本 块 没有 其 他 前 驱 。 如 果 已 知 第 一 个 基本 块 的 这 个 条 件 转 移 取 一 条 路 径 的 可 能 性 比 取 另 一 条 
路 径 要 大 , 则 可 以 让 这 条 可 能 性 大 的 路 径 成 为 下 降 路 径 , 并 且 需 要 的 话 可 以 颠倒 所 测试 的 条 件 。 
在 多 数 体系 结构 中 ， 这 几乎 总 是 比 让 可 能 性 较 小 的 路 径 作为 下 降 路 径 要 快 。 对 于 具有 静态 分 支 
预测 (参见 18.11 节 ) 的 体系 结构 (或 实现 )， 这 要 求 我 们 预测 的 是 下 降 分 支 而 不 是 转移 分 支 。 

实现 伸 直 转换 的 ICAN 代 码 在 图 18-5 中 给 出 ， 其 中 用 到 的 附属 例 程 Fuse_Blocks () 在 图 
18-6 中 。 调 用 Fal1_Through (j, ninsts, Block) 返回 在 执行 基本 块 j 之 后 ， 执 行将 下 降 到 的 
那个 基本 块 的 标号 ; 如 果 没 有 这 种 基本 块 ， 它 补充 一 个 并 返回 其 值 。 


Procedure Straighten(nblocks,ninsts,Block,Succ,Pred) 

nblocks: inout integer 

ninsts: inout array [1::nblocks] of integer 

Block: inout array [1:-nblocks] of array of [::] of LIRInst 

Succ, Pred: inout integer —> set of integer 

begin i : 
change := true: boolean 


图 18-5 对 一 对 基本 块 执行 伸 直 化 处 理 的 ICAN 代 码 
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i, j: integer 
while change do 
change := false 
i: 
while i < nblocks do 
if |Succ(i)| = 1 & Pred(eSucc(i)) = {i} then 
j := *S8ucc(i) 


Fuse Blocks(nblocks,ninsts,Block,Succ,Pred,i,j) 
change := true 





图 18-5 (4) 


procedure Fuse. Blocks (nblocks ,ninsts,Block,Succ,Pred,i,j) 
nblocks: inout integer 
ninsts: inout array [1::nblocks] of integer 
Block: inout array [1--nblocks] of array of [::] of LIRInst 
Succ, Pred: inout integer —> set of integer 
i, j: in integer 









begin 
k, 1: integer 
label: Label 
if Block[i][ninsts[i]].kind = goto then 
k := ninsts[i] - 1 
else 
k := ninsts[i] 











fi 
if Block[j][i1].kind * label then 
k += 1 
Block[i][k] := Block[j][1] 







= 2 to ninsts[j] do 
k += 1 
Block[i]fk] := Block[j] [1] 

od 

if Block[i] [k] .kind + goto then 
label :- Fall Through(j,ninsts,Block) 
ninsts[i] := k + 1 
Blockfi][ninsts[i]] := (kind:goto,1b1:1abel) 










fi 

ninsts[j] := 0 
Succ(i) := Succ(j) 
Elim Unreach. Code(nblocks,ninsts,Block,Pred,Succ) 
|| Fuse. Blocks 







end 





图 18-6 Straighten() 用 到 的 例 程 Puce Blocko () 


18.3 if 化 简 


ifft Ñ (if simplification) 作用 于 两 个 分 支 均 为 空 或 一 个 分 支 为 空 的 条 件 结构 。 这 种 条 件 
结构 可 能 是 因为 代码 提升 或 其 他 优化 导致 的 ， 也 可 能 是 一 开始 在 源 代码 中 就 存在 的 ， 尤 其 是 在 
那 种 由 程序 生成 而 不 是 人 工 编写 的 源 代码 中 。 本 节 介 绍 的 三 种 if 化 简 分 别 与 分 支 为 空 的 条 件 、 
常数 值 条 件 ， 以 及 在 相依 赖 的 两 个 条 件 分 支 中 的 公共 子 表达 式 有 关 。 





如 果 一 个 if 结构 的 then 或 else 部 分 为 空 ， 对 应 的 分 支 便 可 删除 。 如 果 一 个 if- 
then-else 的 then 部 分 为 空 ， 则 可 以 颠倒 这 个 条 件 并 删除 与 then 部 分 有 关 的 分 支 。 若 它 
的 两 个 分 支 都 为 空 ， 则 可 删除 整个 控制 结构 ， 只 保留 不 能 确定 是 否 有 活跃 副作用 的 条 件 计 算 
部 分 。 

第 二 种 控制 流 化 简 作用 于 条 件 为 常数 值 的 1£ 分 支 。 值 为 常数 的 条 件 自动 地 使 得 i£ 的 一 个 
分 支 不 会 被 执行 ， 因 而 可 以 删除 这 个 分 支 。 如 果 这 个 if 只 有 一 个 分 支 ， 则 整个 if 结构 都 可 以 
删除 ， 只 要 所 计算 的 条 件 没 有 活跃 的 副作用 。 

第 三 种 控制 流 化 简 作 用 于 这 样 的 两 个 1f 分 支 ， 基 中 一 个 if 的 执行 依赖 于 前 一 个 i£ 的 执行 ， 
且 前 一 个 if 中 的 条 件 是 后 一 个 i1f 的 条 件 中 的 公共 子 表达 式 ; 当然 ， 在 这 两 个 测试 之 间 必 须 没 
有 改变 它们 所 涉及 的 变量 之 值 。 图 18-7 举 例 说 明了 这 种 情形 。 在 基本 块 B2 末 尾 的 测试 “(a>d) 
or bool” 上 肯定 是 满足 的 ， 因 为 如 果 我 们 进入 了 基本 块 B2， 则 表明 在 基本 块 B1 中 有 a>da， 并 
且 在 这 之 间 a 和 Ga 的 值 都 没有 改变 。 因 此 ， 基 本 块 B2 中 的 这 个 测试 以 及 整个 基本 块 B4 都 可 以 被 
删除 。 如 这 个 例子 的 情况 所 示 ， 这 种 化 简 也 使 得 可 以 进一步 进行 伸 直 转 换 。 


bea 
C < 4*bD 
(a > d) or bool 





图 18-7 a) 一 个 条 件 为 公共 子 表达 式 的 例子 ， 和 b) 删除 此 if 的 死 分 支 后 的 结果 
18.4 循环 化 简 


循环 体 为 空 的 循环 可 以 删除 ， 只 要 控制 迭代 的 代码 没有 活跃 的 副作用 。 即 使 控制 迭代 的 代 
码 有 副作用 ， 它 们 也 有 可 能 很 简单 以 至 于 可 用 非 循 环 代码 来 替代 。 具 体 地 ， 如 果 一 个 循环 的 循 
环 控制 变量 只 是 简单 地 增加 或 减少 一 个 常数 ， 并 与 一 个 常数 终 值 相 比 较 ， 则 可 在 编译 时 计算 出 
此 常数 终 值 ， 并 插入 一 条 对 此 循环 控制 变量 赋值 的 语句 来 替代 这 个 循环 。 

前 一 节 讨 论 的 关于 it 的 第 二 和 第 三 种 化 简 也 可 应 用 于 循环 和 循环 内 的 if 俯 套 ， 反 之 
亦 然 。 

可 施加 于 循环 的 另 一 种 化 简 是 ， 有 些 循 环 的 循环 控制 代码 简单 得 足以 能 确定 出 循环 的 执行 
次 数 ， 如 果 执 行 次 数 足 够 少 ， 则 可 将 它 展开 成 无 分 支 的 代码 ， 并 由 此 得 到 好 处 。 在 某 些 情 况 下 ， 
还 可 以 如 图 18-8 所 示 ， 导 致 结果 代码 可 以 在 编译 时 就 被 执行 。 
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se 0 





ie 4 
ieo s «- 10 
: if i > 4 goto L1 
iei+i ` 
ses+i 
goto L2 
a) b) c) 


图 18-8 a) 一 个 循环 的 例子 ， 它 可 转换 为 b 直线 代码 ， 和 c) 可 在 编译 时 执行 的 代码 
18.5 循环 倒置 


在 源 语言 的 术语 中 ， 循 环 倒置 (loop inversion) 是 将 一 个 while 循 环 转换 为 repeat 循 环 。 
换言之 ， 它 将 循环 关闭 测试 从 循环 体 的 前 面 移 到 循环 体 的 后 面 。 在 最 简单 的 形式 中 ， 循 环 倒置 
要 求 我 们 要 么 确定 此 循环 一 定 会 进入 ， 即 循环 体 至 少 被 执行 一 次 ， 因 此 这 种 指令 移动 是 安全 
的 ; 要 么 需要 我 们 在 进入 这 个 循环 之 前 生成 一 个 测试 ， 来 确定 是 否 会 进入 此 循环 。 循 环 倒置 的 
好 处 是 ， 为 了 结束 循环 只 需要 执行 一 条 分 支 指令 ， 而 不 是 两 条 分 支 指令 ， 这 两 条 分 支 指令 中 有 
一 条 从 循环 体 末尾 转向 循环 体 的 开始 ， 另 一 条 在 循环 体 的 开始 执行 测试 。 

确定 一 个 循环 是 否 会 进入 ， 可 能 只 需 简单 地 观测 这 个 循环 是 否 是 具有 常数 循环 控制 值 
的 Fortran 77 的 ao 循环 或 Pascal 的 for 循 环 ， 并 且 是 否 终 值 超过 了 初 值 ; 也 可 能 需要 与 循环 
控制 表达 式 的 值 和 /或 迭代 变量 有 关 的 数据 流 分 析 数 据 。 循 环 倒置 将 一 个 在 顶部 有 一 条 件 分 
支 ， 在 底部 有 一 无 条 件 分 支 的 循环 转换 为 只 在 底部 有 一 个 与 原来 的 测试 相反 的 条 件 分 支 的 
循环 。 

图 18-9 用 C 代 码 展示 了 循环 倒置 的 一 个 例子 。 在 图 a) 中 有 一 个 C 的 for 循 环 ， 在 图 b) 中 ， 我 
们 已 将 它 扩 展 成 一 个 while 循 环 。 因 为 开始 时 它 的 终止 条 件 为 假 , 它 的 循环 体 至 少 会 执行 一 次 ， 
因此 它 也 可 以 转换 为 图 c) 所 示 的 zepeat 循 环 。 


i = 0; 
repeat 
{ afil2i-*1; 


i = 0; 
for (i = 0; i < 100; i++) while (i « 100) 


{ afi] =i +1; 


{ afi) =i+1; 
i++; 


} 


itt; 


} } until (i >= 100) 





b) 
图 18-9 用 C 表 示 的 循环 倒置 例子 


循环 倒置 的 一 种 重要 情形 与 这 种 嵌 套 循环 有 关 ， 其 中 内 层 循环 迭代 控制 变量 的 取 值 范围 是 
外 层 循环 迭代 控制 变量 取 值 范围 的 非 空 子 集 ， 如 图 18-10 中 的 Fortran 77 代 码 所 示 。 在 这 种 情况 
下 ， 只 要 外 层 循环 被 执行 ， 内 层 循环 肯定 就 至 少 会 执行 一 次 。 因 此 对 内 层 循环 一 定 可 以 施行 循 
环 倒置 。 

如 果 不 能 确定 一 个 循环 是 否 会 进入 ， 我 们 可 以 在 它 的 倒置 形式 前 面 放置 一 条 检查 进入 循 
环 的 条 件 ， 并 在 条 件 不 满足 时 跳 过 此 循环 的 条 件 分 支 指令 。 图 18-11 给 出 了 这 种 处 理 的 一 个 
例子 。 
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if (a >= b) goto L; 





i-a; 
for (i = a; i < b; i++) repeat 
do i = 1,n { cli] =i+ 1; { cil =i +1; 
do j = i,n itt; 
a(i,j) = a(4,j) + c * bi) } } 
enddo until (i >= b) 
enddo 
a) b) 
图 18-10 具有 相同 循环 控制 值 的 Fortran 18-1 倒置 一 个 我 们 不 能 确定 它 是 否 一 定 会 进入 的 C 循 环 
THRE AF 
18.6 无 开关 化 


无 开关 化 (unswitching) 是 一 种 控制 流转 换 ， 它 将 循环 不 变 条 件 分 支 提 到 循环 之 外 。 例 如 ， 
在 图 18-12a 的 Fortran 77 代 码 中 ， 谓 词 k .eq .2 与 1 的 值 无 关 。 将 这 个 谓词 测试 从 循环 中 移出 而 
产生 的 代码 如 图 18-12b 所 示 。 尽 管 这 样 做 增加 了 代码 的 空间 ， 但 它 减少 了 要 执行 的 指令 条 数 。 
注意 ， 这 个 测试 条 件 必 须 是 紧 幅 套 在 转换 所 施加 的 循环 结构 内 的 。 图 18-13 的 例子 举例 说 明了 
无 开关 化 的 两 个 方面 :第 一 ， 这 个 不 变 条 件 不 必 是 整个 谓词 ;第 二 ， 如 果 条 件 代码 没有 else 
部 分 ， 则 需要 在 转换 后 的 代码 中 补充 else 部 分 来 设置 循环 控制 变量 为 循环 终 值 ， 除 非 可 以 证 
明 循 环 控制 变量 在 此 循环 之 后 是 已 死去 的 。 l 


do i = 1,100 
if (k.eq.2) then 
a(i) = a(i) + 1 
else 


if (k.eq.2) then 
do i = 1,100 
ali) = a(i) + 1 
enddo 
a(i) = a(i) - 1 
endif 
enddo 


else 
do i = 1,100 
ali) = a(i) - 1. 
enddo 
endif 





a) b) 
图 18-12 a) 循环 内 人 嵌 套 一 个 循环 不 变 谓 词 的 Fortran 77 代 码 ， 和 b) 对 它 执行 无 开关 化 后 的 结果 










if (k.eq.2) then 
do i = 1,100 
if (a(i).gt.0) then 
a(i) = a(i) + 1 
endif 
enddo 
else 
i = 101 
endif 


a) b) 
图 18-13 对 无 else 部 分 的 条 件 结构 实施 无 开关 化 


do i = 1,100 
if ((k.eq.2).and.(a(i).gt.0)) then 
a(i) = a(i) + 1 
endif 


enddo 





18.7 分 支 优化 - 
有 若干 种 分 支 优化 通常 被 推迟 到 编译 处 理 过 程 的 较 后 阶段 ， 在 代码 的 最 终 形态 已 确定 之 后 
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才 进 行 。 本 节 我 们 讨论 其 中 的 几 种 优化 。 

AMUAHARILOR, RUARR AMER AD ER E ERAN 
时 。 检 而 出 这 种 情况 并 不 难 ， 我 们 只 需 简 单 地 查看 每 一 条 分 支 指令 的 转移 目的 地 是 什么 指令 
可 ， MRES KERAMER (HTH CIERRE. A 
个 分 支 指令 转移 到 另 一 个 分 支 指令 的 情形 有 下 面 几 种 : 

1. 一 个 无 条 件 分 支 指令 ， 它 转移 到 另 一 个 无 条 件 分 支 指令 ， 可 用 一 个 转移 到 后 者 目的 地 的 
无 条 件 分 支 指令 来 替代 。 

2. 一 个 条 件 分 支 指令 ， 它 转移 到 一 个 无 条 件 分 支 指令 ， 可 用 对 应 的 转移 到 后 一 无 条 件 分 支 
指令 的 目的 地 的 条 件 分 支 指令 来 替代 。 

3. 一 个 无 条 件 分 支 指令 ， 它 转移 到 一 个 条 件 分 支 指令 ， 可 用 后 一 条 件 分 支 指令 的 副本 
来 替代 。 

4. 一 个 条 件 分 支 指令 ， 它 转移 到 另 一 个 条 件 分 支 指令 ， 只 要 前 者 的 条 件 为 真 时 后 者 的 条 件 
也 为 真 ， 前 一 个 条 件 分 支 指令 就 可 用 一 个 测试 条 件 来 自前 者 、 转 移 目 的 地 来 自 后 者 的 分 支 指令 
KER. 

例如 ， 在 下 面 的 MIR 序 列 中 : 

if a = 0 goto L1 

L1: if a >= 0 goto L2 

12230... 

第 一 条 分 支 指令 可 改变 为 “if a = 0 goto L2”， 因 为 如 果 a=0 为 真 ， 就 有 a>=0 为 真 。 

另 一 种 情形 是 这 样 的 一 种 无 条 件 分 支 指令 ， 它 的 分 支 目 的 地 就 是 下 一 条 指令 。 这 种 分 支 指 
令 常 常 出 现在 由 标准 的 代码 生成 策略 所 生成 的 代码 中 。 这 种 情形 不 难 识别 ， 其 优化 也 很 简单 : 
删除 此 分 支 即 可 。 同 样 显然 的 是 这 种 情况 : 一 个 基本 块 以 一 个 条 件 分 支 指令 结束 ， 而 该 分 支 指 
令 分 支 到 其 后 的 第 二 条 指令 ， 且 跟 在 此 分 支 指令 之 后 的 是 一 个 无 条 件 转移 到 另外 某 处 的 分 支 指 
令 。 在 这 种 情况 下 ， 我 们 可 其 倒 这 个 条 件 分 支 的 测试 条 件 ， 改 变 它 的 转移 目的 地 为 那 条 无 条 件 
分 支 指令 的 目的 地 ， 然 后 删除 后 者 。 例 如 ， 

if a= O goto L1 


goto L2 
Li: . .. 


变 为 
if a != 0 goto L2 
Li: ... 


18.8 尾 融 合 或 交叉 转移 


KA 融合 (tail merging)， 也 叫做 交叉 转移 (cross jumping )， 是 一 种 总 能 节省 空间 ， 并 且 也 
可 能 节省 时 间 的 优化 。 它 寻找 这 样 的 两 个 基本 块 : 这 两 个 基本 块 的 最 后 几 条 指令 是 相同 的 ， 并 
且 它 们 随后 由 于 一 个 基本 块 转移 到 位 于 另 一 个 基本 块 之 后 的 指令 ， 或 由 于 两 个 基本 块 都 转移 到 
相同 的 位 置 ， 而 在 相同 的 地 方 汇合 继续 执行 。 这 种 优化 所 要 做 的 是 ， 在 一 个 基本 块 中 用 一 条 转 
移 至 另 一 个 基本 块 中 对 应 点 的 分 支 指令 来 替代 它 与 另 一 个 基本 块 中 相 匹 配 的 那些 指令 。 显 然 ， 
如 果 这 两 个 基本 块 中 有 一 个 不 是 以 分 支 指 令 结尾 的 ， 则 最 好 保留 这 个 基本 块 不 变 。 例 如 ， 图 
18-14a 中 的 代码 可 以 转换 为 图 b) 中 的 代码 。 
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ri «- r2 + r3 ri «- r2 + r3 
r4 «- r3 shl 2 goto L2 
r2< r2+1 

r2 < r4 - r2 

goto L1 


rb «- r4 - 6 rb < r4 - 6 
r4 «- r3 shl 2 : r4 < r3 shl 2 
r2 «r2 +1 r2 «r2 -*1 
r2 «- r4 - r2 r2 © r4 - r2 





a) b) 
18-14 a) 适合 尾 融合 的 LIR 代 码 ， 和 b) 对 它 进行 尾 融合 转换 后 的 结果 


为 了 实现 尾 融 合 ， 我 们 简单 地 从 后 向 前 扫描 有 多 个 前 驱 的 基本 块 的 每 一 个 前 驱 ， 寻 找 是 否 
有 相同 的 指令 序列 。 当 存在 这 种 共同 指令 序列 时 ， 仅 保留 其 中 之 一 ， 并 用 转移 至 这 个 保留 的 指 
令 序列 开始 处 的 分 支 指令 赫 换 其 他 所 有 基本 块 中 的 相同 指令 序列 〈 在 这 种 处 理 中 ， 通 常会 创建 
一 个 新 的 基本 块 )。 


18.9 条 件 传 送 


& 463% (conditional move) 是 只 有 当 指 定 的 条 件 满 足 时 才 将 源 操 作 数 复制 到 目的 操作 数 
的 指令 。 这 种 指令 可 以 在 若干 现代 体系 结构 和 实现 中 找到 ， 例 如 SPARC-V9 和 奔腾 Pro. (EHI 
它们 可 以 实现 用 不 含 分 支 的 代码 来 替代 某 些 简 单 的 分 支 代码 序列 。 例 如 ， 图 18-15a 中 求 a 和 Pb 的 
最 大 值 并 将 结果 存储 至 c 的 代码 ， 就 能 够 用 图 18-15b 的 代码 来 替代 。 
if a > b goto L1 tl <a>b 
c < b ceb 
goto L2 l c «(ti)a 


Li: c<a 
L2: 





a) b) 
图 18-15 求 a 和 b 的 最 大 值 的 代码 ， 其 中 a) 使 用 分 支 ，b) 使 用 条 件 传送 


用 条 件 传 送 替 代 分 支 代码 所 采用 的 方法 是 对 中 间 代 码 进 行 模式 匹配 。 在 最 简单 的 情况 下 ， 
原来 的 代码 必须 具有 图 18-16a 或 图 18-17a 所 示 的 形式 ， 并 且 可 分 别 用 图 18-16b 或 18-17b 中 等 价 
的 代码 来 替换 。 当 然 ， 也 可 以 匹配 和 替换 含 多 个 赋值 的 序列 ， 但 这 两 种 最 简单 的 模式 涵盖 了 实 
际 代码 中 存在 的 大 多 数 情况 。 
if opd1 relop opd2 goto labell reg < opd3 


reg < opd3 t < opd1 relop opd2 
goto label2 reg «- (t) opd4 


labeli: reg < opd4 
label2: 





a) b) 


图 18-16 a) 可 用 条 件 传送 替代 分 支 的 代码 样式 的 一 个 例子 ，b) 替代 后 的 结果 
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reg <€ opd3 
if opd1 relop opd2 goto labell 


reg < opd3 
t < opdl !relop opd2 


reg «- opd4 


reg «-(t) opd4 
label1: 





a) b) 


图 18-17 a) 可 用 条 件 传送 替代 分 支 的 代码 样式 的 另 一 个 例子 ，b) 替代 后 的 结果 


18.10 死 代码 删除 


一 个 变量 是 死去 的 (dead)， 如 果 从 对 该 变量 定 值 的 代码 位 置 开始 直到 出 口 的 任何 路 径 上 
都 不 使 用 它 。 一 条 指令 是 死去 的 ， 如 果 它 仅 计算 那 种 在 从 该 指令 开始 的 任何 可 执行 路 径 上 都 不 
会 使 用 的 值 。 将 一 个 死去 变量 的 值 赋 给 一 个 局 部 变量 ， 如 果 在 通 向 过 程 出 口 的 任何 可 执行 路 径 
上 都 不 使 用 这 个 局 部 变量 (包括 将 它 作 为 过 程 的 返回 值 )， 则 这 个 局 部 变量 和 给 它 赋 值 的 这 条 
指令 也 是 死去 的 。 如 果 将 一 个 死去 变量 的 值 赋 给 可 见 性 较 宽 的 变量 ， 通 常 需要 过 程 间 分 析 才 能 


确定 后 者 是 否 也 是 死去 的 ， 除 非 在 从 它 的 计算 点 开始 的 每 一 条 可 执行 路 径 上 都 存在 另 一 条 对 这 


个 变量 赋值 的 指令 。 

程序 可 能 在 优化 之 前 就 含有 死 代码 ， 但 这 种 代码 更 有 可 能 是 因为 优化 导致 的 ， 强 度 前 弱 
(参见 14.1.2 节 ) 是 会 产生 死 代码 的 优化 的 一 个 例子 ， 基 他 很 多 优化 也 会 产生 死 代码 。 许 多 优化 
创建 死 代码 的 部 分 原因 是 由 于 工作 分 割 原理 : 每 一 种 优化 遍 尽 可 能 地 保持 简单 ， 以 便 使 其 易于 
实现 和 维护 ， 而 将 其 余 的 整理 工作 留待 它 之 后 的 其 他 遍 去 处 理 。 

我 们 用 一 种 乐观 的 方法 来 确定 死去 的 指令 。 这 种 方法 一 开始 先 标识 所 有 计算 必要 值 的 指令 。 
一 个 值 是 必要 的 (essential)， 如 果 它 是 过 程 一 定 要 返回 或 
输出 的 值 ， 或 者 它 可 能 会 对 从 过 程 外 访问 的 存储 单元 有 影 
响 。 然 后 ， 该 算法 以 迭代 方式 逐条 标识 那 种 对 计算 必要 值 
有 贡献 的 指令 。 当 这 一 过 程 已 稳定 不 变 时 ， 所 有 未 标识 的 
指令 都 是 死去 的 从 而 可 以 删除 。 

这 个 算法 的 一 个 微妙 之 处 是 ， 它 能 检测 出 仅 定义 自己 
的 一 个 新 值 的 变量 ; 这 种 变量 是 死去 的 ， 因 为 它们 除了 浪 
费时 间 和 空间 外 ， 对 程序 没有 任何 作用 。 例 如 ， 图 18-18 的 
代码 中 ， 变 量 i 是 不 必要 的 ， 因 为 它 的 作用 只 是 计算 自己 的 





一 个 新 值 。 
死 代码 识别 也 可 以 用 数据 流 分 析 公式 来 表示 ， 但 使 用 “图 18.18 变量; 只 对 定义 本 身 起 作用 ， 
工作 表 和 它 的 ud 链 和 du 链 要 较 容易 一 些 。 其 方法 如 下 : 因而 是 不 必要 的 


1. 用 必要 指令 的 基本 块 索引 偶 对 集合 初始 工作 表 。( 在 
图 18-19 中 ， 是 那些 在 过 程 人 口 处 Mark [i] [j]=true 的 偶 对 <i, 户 所 组 成 的 集合 。) 

2. 从 工作 表 中 删除 一 个 偶 对 <i, >。 对 于 在 这 条 指令 中 使 用 的 每 一 个 变量 v， 标 识 它 的 ad 链 
UD (v, <i,j>) 中 的 每 一 条 指令 ， 并 将 那 条 指令 的 基本 块 索 引 偶 对 放 到 工作 表 中 。 

3. 如 果 指 令 是 一 赋值 ， 比 如 说 ，v ~exp， 则 对 于 它 的 du 链 DU (v, <i j>) 中 的 每 一 个 指令 位 
置 <k, I>, MRS <k, DATE, HIRE DARI LPR. 

4. 重复 后 面 两 个 步骤 直到 工作 表 为 空 。 

5. 从 过 程 中 删除 未 标识 的 每 一 条 指令 和 每 一 个 已 变 为 空 的 基本 块 。 

实现 这 种 处 理 的 ICAN 代 码 如 图 18-19 所 示 。 例 程 Vars_Used (Block,x) 返 回 指令 
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Block[x@1] [x@2] 中 作为 操作 数 使 用 的 变量 集合 ，Delete_Unmarked_Insts() 使 用 
Delete Inst () 删 除 每 一 条 未 标识 的 指令 ， 并 调整 Mark1][] 反 映 已 做 的 删除 。 我 们 可 以 检 
查 其 结果 是 否 能 够 做 任何 控制 流转 换 ， 也 可 以 将 这 些 转 换 遗 留 给 独立 的 一 遍 来 处 理 ; 这些 转 换 
可 包括 18.3 节 和 18.4 节 分 别 讨论 的 if 化 简 和 空 循环 删除 。 


UdDu = integer x integer 
UdDuChain = (Symbol x UdDu) —> set of UdDu 


procedure Dead. Code Elim(nblocks,ninsts,Block,Mark,UD,DU,Succ,Pred) 
nblocks: inout integer 
ninsts: inout array [1:-nblocks] of integer 
Block: inout array [1::nblocks] of array […] of MIRInst 
Mark: in array [1--nblocks] of array [::] of boolean 
UD, DU: in UdDuChain 
Succ, Pred: inout integer —> set of integer 
begin 
i, j: integer 
X, y: integer X integer 
v: Var 
Worklist: set of (integer x integer) 
|| set of positions of essential instructions 
Worklist := {<i,j> € integer x integer where Mark[i] [j]} 
while Worklist + Ø do 
x := eWorklist; Worklist -= {x} 
|| mark instructions that define values used by 
|| required instructions 
for each v € Vars_Used(Block,x) do 
for each y € UD(v,x) do 
if !Mark[yei][y92] then 
Mark [yel] [ye2] := true 
Worklist v= (y) 
fi 
od 
od 
|| mark conditionals that use values defined by 
|] required instructions 
if Has Left(Block[x01][x02].kind) then 
for each y € DU(Block[x01][x02].1eft,x) do 
if !Mark [yel] [ye2] & Block[y01] [y02] . kind 
€ (binif,unif,valif,bintrap,untrap,valtrap) then 
Mark [y@1] [y@2] := true 
Worklist u= {y} 
fi 


Delete, Unmarked, Insts (nblocks,ninsts,Block,Succ,Pred,Mark) 
end 11 Dead. Code Elim 


图 18-19 检测 和 删除 死 代 码 的 ICAN 例 程 

有 一 点 需要 小 心 的 是 ， 我 们 必须 保证 产生 一 个 死去 值 的 操作 没有 执行 诸如 设置 一 个 条 件 码 

之 类 的 附带 动作 。 例 如 ， 对 于 SPARC 系 统 中 其 目的 寄存 器 是 r0 并 且 设 置 条 件 码 的 一 条 整数 减 
指令 ， 如 果 存 在 对 它 设 置 的 条 件 码 的 后 续 使 用 ， 它 就 不 是 死去 的 。 
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图 18-20 用 于 死 代 码 删除 的 例子 


作为 这 个 算法 应 用 于 MR 代码 的 例子 ， 考 虑 图 18-20 中 的 流 图 。 这 个 流 图 的 ud 链 和 du 链 如 下 : 
- 变量 定 值 du 链 





zin《Bt,1》 — (4B2,15) 

iin《B2,1》 {<B2,1>,<B4,1>} 

jin <B1,2>  ((B2,15,(B2,2», (B2, 35) 

jin (52,3 {<B2,1) ,CB2,2) ,CB2,3) , (B2,45, (B3, 1? , (B4, 1?) 
kin <B1,3>  ((B3,150) 

kin <B3,1>  {<B3,1>} 

lin <B2,2> {<B3,2>} 

n in (B1,45 {<B2,4>} 


变量 使 用 ud 链 


iin (B2,15 (4B1,15, (82,15) 
iin (B4,15 {<B2,1>} 
jin <B2,1> {<B1, 2), <B2,3>} 
jin <B2,2> {<B1,2>, <B2,3>} 
j in <B2,3> {<B1,2>,<B2,3>} 
jin 82,45 {<B2,3>} 
jin <B3,1> — (82,9) 
jin <B4,1> {<(B2,3>} 
k in <B3,1> (4B1,35,4B3,15) 
1 in <B3,2> {<B2,2>} 
nin (B2,45 (4B1,45) 


一 开始 ， 必 要 指令 集合 由 print 和 return 组 成 ， 因 此 只 有 Mark[B3] [2]= 
Mark[B4][1] = true, Worklist = {<B3,2>, <B4, 1>}. 

现在 ， 我 们 开始 标识 对 这 两 条 必要 指令 有 贡献 的 指令 。 首 先 从 工作 表 中 删除 x=<B3, 2>， 
这 导致 Worklist={<B4, 1>} ， 并 发 现 Vars_Used (Block, «B3, 2>) - (1). 因此 我 们 检 
查 <B3, 2> 中 1 的 ud 链 的 一 个 成 员 ， 即 <B2, 2>, 设置 Mark[B2] [2]=true, 并 将 <B2, 2> 加 入 
工作 表 ， 得 到 Worklist={<B4, 1>, <B2,2>}. 

接着 我 们 确定 出 Has_Left (Block[B3] [2] .kind) =false， 于 是 继续 到 工作 表 的 下 一 
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元 素 。 我 们 从 工作 表 中 删除 x=<B4, 1> ， 留 下 工作 表 的 值 为 Work1list={<B2, 2>}， 并 发 现 
Vars_Used (Block, «B4, 1>) -(i, j}。 所 以 ,我们 设置 v=i 并 检查 UD (i, «B4, 1>) 
-(«B2, 1>} 的 每 一 个 成 员 。 我 们 设置 Mark [B21 [1] =true， 并 将 <B2, 1> 加 入 到 工作 表 中 ， 
得 到 Work1list={<B2,.2>, «B2, 1>}。 随 后 设置 v=j 并 发 现 UD (j, «B4, 1>) ={<B2, 3>}, f 
致 设置 Mark [B2] [3]=true， 并 将 <B2,3> 加 入 工作 表 ， 因 此 Worklist={<B2, 2>, «B2, 
1>, <B2, 3>}。 接 下 来 确定 出 Has_Left (Block[B4] [1] .kind) =false， 因 此 我 们 继续 到 
工作 表 的 下 一 元 素 。 

现在 我 们 从 工作 表 中 删除 x=<B2,，2>， 留 下 工作 表 的 值 为 Norklist={<B2, 1», «B2, 
3>} ， 并 发 现 Vars_Used (Block, «B2, 2») ={j}。 所 以 ， 我 们 设置 v=j 并 检查 UD (3, 
«B2,, 2») = («B1, 2», «B2, 3>} 的 每 一 个 成 员 。 这 导致 设置 Mark[B1] [2] -true (Mark 
[B2] [3] 已 经 为 crue)， 并 将 <B1，2> 加 入 到 工作 表 中 ， 即 Worklist -(«B2, 1», «B2, 3>, 
«B1,2»). 

接着 我 们 从 工作 表 中 删除 <B2， 1>， 遗 留 Worklist={<B2, 3>, <Bl, 2>}。 
Vars Used(Block, «B2, 1>)={i, j}, WA, 我 们 考察 UD (i, «B2, 12) - («B1, 1>, 
<B2,，1>}。 我 们 设置 Mark[B1][1]=true 并 将 <B1，1> 加 入 工作 表 ， 得 到 
Worklist-(«B2, 3>, <B1, 2>, «Bl, 1»). Mark[B2] [1] 已 经 置 为 true， 所 以 我 们 继续 
到 工作 表 的 下 一 元 素 。 现在 UD (j, «B2, 1>) ={<B1, 2>, «B2, 3>} ,它们 两 者 都 已 被 标识 过 ， 
因此 我 们 继续 前 进 。 

接 下 来 我 们 从 工作 表 中 删除 <B2 ，3>， 遗 留 其 值 为 Nork1ist={<B1l, 2>}。 现 在 
Vars Used(Block, «B2, 3>) ={j} ， 所 以 ， 我 们 检查 Mark [B1] [2] 和 Mark[B2] [3] 是 否 
已 标识 过 。 它 们 两 者 都 已 标识 过 ， 因 此 我 们 继续 处 理 并 确定 出 Has_Left 
(Block[B2][3].left) = true, 于 是 我 们 检查 Block[B2] [1]、Block[B2][2]、 
Block[B2] [3], Block[B2] [4] 、Block[B3] [1] 和 Block[{B4] [1] 中 的 每 一 个 ， 确 定 
这 些 位 置 中 是 否 有 条 件 指 令 且 没有 被 标识 。 只 有 Bl1ock[B2] [4] 是 这 种 指令 ， 因 此 设置 
Mark[B2][4] = true, 并 将 <B2, 4> 加 入 到 工作 表 中 , 得 到 Worklist ={<B1, 2>, 
<B2, 4>}。 

现在 我 们 从 工作 表 中 删除 <B1, 2>， 留 下 工作 表 的 值 为 Nork1list={<B1, 1>, <B2, 4>}。 现在 
Vars, Used (Block, «B1, 2>)=8, RDU(Block[B1] [2], 3) 2 («B2, 1», «B2, 2», «B2, 3>}, 
它们 都 已 经 被 标识 过 。 

接 下 来 我 们 从 工作 表 中 删除 <B1，1>， 留 下 其 值 为 Worklist={<B2, 4>}。 现 在 
Vars Used(Block, «B1, 1»)- $9, DU(Block[B1][1], i)={<B2, 1>}, JFH.«B2, 1> 已 
经 被 标识 过 。 

最 后 ， 我 们 从 工作 表 中 删除 <B2 ,4> ， 留 下 工作 表 为 空 。Mark[B2] [4] 已 经 为 true， 
所 以 算法 以 图 18-21a 所 示 的 Mark 值 而 终止 ， 并 且 执 行 死 代码 删除 所 得 到 的 流 图 如 图 18-21b 所 
示 。 

Knoop、Riithing 和 Steffen [KnoR94] 已 将 死 代码 删除 扩展 到 部 分 死 代码 的 删除 ， 其 中 “部 
分 ”的 含义 与 部 分 宛 余 删 除 中 使 用 的 含义 相同 ， 即 指 在 某 些 路 径 上 是 死去 的 ， 但 在 其 他 路 径 上 
可 能 并 不 是 死去 的 。 
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a) 
图 18-21 a 标识 出 死 代码 之 后 的 Mark 表 ，b) 图 18-20 中 的 流 图 经 死 代码 删除 之 后 


18.11 分 支 预 测 


这 一 节 和 随后 的 一 节 , 我 们 讨论 几 种 几乎 总 是 推迟 到 机 器 代码 已 经 生成 之 后 才 进 行 的 优化 ， 
它们 党 称 为 后 遍 (postpass) 优化 。 另 一 个 常用 术语 是 宝 孔 (peephole) 优化 ， 因 为 它们 是 通过 
移动 一 个 小 窗口 或 宕 孔 ， 在 已 生成 的 代码 上 或 已 生成 代码 的 依赖 DAG 上 来 寻找 可 以 进行 优化 
的 机 会 的 。 注 意 ， 利 用 依赖 DAG 便 于 找 出 要 执行 的 优化 所 关心 的 一 对 (或 一 组 ) 指令 ， 例 如 ， 
这 一 对 指令 可 能 是 通过 指针 来 读 取 一 个 数组 元 素 ， 然 后 增加 该 指针 使 之 指向 下 一 元 素 。 

分 支 预测 (branch prediction) 指 的 是 静态 或 动态 地 预测 条 件 分 支 指令 是 否 会 导致 控制 转移 。 
精确 的 分 支 预 测 很 重要 ， 因 为 它 使 得 处 理 器 可 以 在 导致 控制 转移 的 分 支 指令 被 执行 之 前 ， 从 指 
令 高 速 缓存 中 读 取 连 续 路 径 上 的 指令 到 指令 预 取 缓冲 区 ， 或 从 主 存 或 二 级 高 速 缓 存 读 到 指令 高 
速 缓存 中 。 随 着 高 速 缓 存 的 延迟 相对 于 处 理 器 主 频 的 差距 越 来 越 大 ， 预 测 也 越 来 越 重要 。 

动态 分 支 预测 方法 包括 了 各 种 策略 ， 其 范围 从 一 个 较 小 的 保存 条 件 分 支 指令 地 址 并 记录 它 
最 近 一 次 执行 是 否 发 生 分 支 转移 的 简单 高 速 缓存 ， 到 较 大 的 高 速 缓存 。 对 于 最 近 执行 的 一 组 分 
支 指令 ， 这 种 高 速 缓 存 包含 转移 目标 的 前 几 条 指令 (下 降 路 径 不 必 有 缓存 ， 因为 原来 的 指令 读 取 
机 制 就 适用 于 它 )。 当 然 ， 实 现 这 些 策略 需要 硬件 资源 的 支持 ， 并 且 可 能 相当 复杂 一 一 例如 ， 
后 一 种 策略 在 分 支 指令 或 它 的 目的 地 代码 或 下 降 点 的 代码 被 动态 改变 时 ， 需 要 有 逻辑 电路 使 得 
高 速 缓存 中 的 登记 项 无 效 。 另 外 ， 较 简单 的 策略 ， 如 上 面 提 到 的 第 一 种 策略 ， 则 可 能 不 是 非常 
有 效 一 一 例如 ， 可 能 会 有 这 种 情形 ， 一 个 特定 的 分 支 指令 每 次 执行 时 都 在 转移 和 不 转移 之 间 进 
TWh. 

静态 分 支 预 测 方法 对 硬件 资源 的 需要 较 少 ， 并 且 已 经 证 明 它 几乎 同 动态 预测 策略 一 样 好 。 
某 些 体系 结构 ， 如 SPARC-V9， 提 供 有 指明 静态 分 支 预测 手段 的 条 件 分 支 指 令 ; 其 他 的 一 些 实 
现 ， 如 POWER 的 RIOS 版 本 ， 对 于 分 支 的 转移 和 下 降 两 种 情形 有 不 相等 的 延迟 ， 因 此 选择 可 能 
性 较 大 的 路 径 作 为 分 支 指令 延迟 较 小 的 一 方 具有 较 大 的 好 处 。 

作为 静态 分 支 预测 正确 程度 的 一 种 度量 ， 我 们 定义 完美 静态 预测 器 ( perfect static 
predictor) 为 这 样 一 种 预测 器 ， 它 用 某 种 似乎 有 点 费解 的 方法 ， 以 对 于 一 条 分 支 指令 而 言 至 少 
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有 50% 的 时 间 是 正确 的 方式 ， 静 态 地 预测 每 一 条 件 分 支 指令 是 否 会 发 生 控制 转移 。 因 此 ， 如 果 
一 条 分 支 指 令 恰 好 有 一 半 的 时 间 导 致 控制 转移 ， 完 美静 坊 预 测 器 就 有 50% 的 时 间 是 正确 的 ， 并 
且 当 该 分 支 指令 使 得 控制 走 其 中 一 条 路 径 比 另 一 条 路 径 更 频繁 时 ， 这 个 完美 静态 预测 器 的 正确 
性 就 应 更 好 。 如 果 该 分 支 指令 总 是 导致 转移 发 生 或 决 不 发 生 转 移 ， 则 它 的 正确 性 就 将 是 100% 。 
当 动 态 计算 给 定 程序 中 的 所 有 分 支 指令 时 ， 完 美静 态 预 测 器 提供 了 任意 静态 预测 器 对 那个 程序 
能 够 预测 的 程度 的 一 个 上 界 。 

有 些 简单 的 启发 式 方法 的 预测 正确 性 可 以 高 于 平均 值 。 例 如 ， 对 于 向 后 条 件 分 支 ， 预 测 分 支 
会 发 生 的 成 功 性 相对 要 大 一 些 ， 因 为 多 数 向 后 转移 的 分 支 指令 是 循环 的 闭合 分 支 指令 ， 并 且 大 部 
分 循环 在 退出 之 前 都 要 执行 多 次 。 类 似 地 ， 预 测 向 前 转移 的 分 支 不 会 发 生 转移 的 成 功 性 也 相对 要 
大 些 ， 因 为 这 种 分 支 指令 中 只 有 小 部 分 是 关于 测试 一 个 例外 条 件 ， 并 绕 过 相应 处 理 代 码 的 。 

Ball 和 Larus [BalL93] 讨论 了 更 好 的 静态 分 支 预测 启发 式 方法 ， 它 们 通过 更 精确 地 定义 循 
环 分 支 而 改善 了 前 面 提 到 的 简单 向 后 分 支 的 启发 式 。 假 设 已 给 我 们 一 个 流 图 ， 并 且 已 确定 出 了 
它 的 正常 循环 (参见 7.4 节 )。 定 义 循 环 分 支 (loop branch) 是 这 种 分 支 ， 它 有 此 流 图 中 的 一 条 
出 边 ， 这 条 出 边 或 者 是 一 条 回 边 ， 或 者 是 一 条 从 循环 出 口 的 边 S; PARIA (nonloop 
branch) 是 其 他 的 分 支 。 为 了 静态 预测 循环 分 支 ， 我 们 简单 地 选择 回 边 。 对 于 真实 的 程序 ， 它 
是 适合 的 也 是 很 成 功 的 。 

对 于 非 循 环 分 支 ， 有 一 些 简单 的 启发 式 方法 有 助 于 更 为 成 功 地 预测 它们 。 例 如 ， 操 作 码 启 
发 式 方 法 根据 与 0 或 一 个 负 整 数值 的 整数 比较 ， 以 及 浮 点 值 之 间 的 相等 测试 来 检查 分 支 。 它 预 
测 非 正 值 的 整数 分 支 和 浮 点 相等 分 支 不 会 发 生 ， 因 为 前 者 频繁 用 作 错 误 指 示 器 ， 而 后 者 很 少 为 
真 。 循 环 启发 式 方法 检查 一 个 后 继 基 本 块 是 否 不 是 分 支 所 在 基本 块 的 后 必 经 结 点 ， 并 且 既 不 是 
循环 首 结 点 ， 也 不 是 循环 前 置 结 点 。 如 果 一 个 后 继 基 本 块 满足 这 个 启发 式 ， 则 预测 转移 到 这 个 
后 继 基 本 块 的 分 支 会 发 生 转 移 。 

分 支 预测 是 一 个 仍 在 继续 的 研究 领域 。 关于 当前 工作 的 更 多 参考 文献 参见 本 章 末 尾 的 
18.14 节 。 


18.12 机 器 方言 和 指令 归并 


有 若干 种 优化 只 能 在 机 器 特有 的 代码 已 经 生成 之 后 才能 执行 ， 或 者 最 好 留 到 编译 过 程 快 结 
束 时 再 执行 。 如 果 全 局 优化 是 在 低级 中 间 代 码 上 进行 的 ， 这 些 优化 可 以 稍 早 一 点 进行 ， 但 在 某 
些 情况 下 ， 在 执行 这 些 优化 时 需要 小 心地 做 出 最 有 效 的 选择 。 例 如 下 面 讨论 的 将 这 样 两 条 指令 
归并 为 单条 指令 的 情形 ， 其 中 一 条 指令 通过 指针 引用 个 统 组 元 奈 ， 另 ”条 指令 MURSORE 
之 指向 下 i i 
4, 但 它 可 能 不 是 最 好 的 选择 ， _ 因 为 归纳 变量 优化 可 以 副 除 那 条 使 指针 值 增加 的 指令 ， 所 以 ， 
我 们 在 编译 接近 结束 时 才 做 指令 归并 。 

机 器 方言 (machine idioms) 是 体系 结构 特有 的 指令 和 指令 序列 ， 它们 为 执行 一 个 计算 提 
供 的 方法 比 编译 针对 通用 的 体系 结构 所 采用 的 方法 更 为 有 效 。 许 多 机 器 方言 是 指令 归并 的 实例 ， 
指令 归并 (instruction combining) 即 用 具有 相同 效果 的 一 条 指令 替换 一 组 指令 。 

因为 所 有 RISC 执 行 大 部 分 计算 指令 都 只 需要 一 拍 时钟 周 期 ， 因 此 RISC 的 多 数 机 器 方言 ， 
但 并 不 是 所 有 的 ， 是 将 两 条 成 对 的 指令 合并 为 一 条 机 器 方言 








日 如 Bal 和 Larus 所 指出 的 ， 也 有 可 能 两 条 出 边 都 是 回 边 。 他 们 指出 ， 在 实际 中 还 未 见 到 这 种 情形 ， 但 假如 确 
实 出 现 了 的 话 ， 我 们 应 当选 择 预 测 较 内 蝴 循 环 的 边 。 
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VAX, Motorola M68000[J Æ Intel 386 系 列 一 -存在 着 用 时 钟 周期 数 较 少 的 一 条 指令 替代 另 一 条 
指令 的 机 器 方言 ， 以 及 由 若干 条 指令 合并 而 成 的 单条 指令 的 机 器 方言 。 

本 节 我 们 给 出 几 种 体系 结构 机 器 方言 的 一 些 例子 。 这 些 例 子 并 不 代表 所 有 的 情况 一 一 它们 
主要 是 为 了 说 明 可 能 性 。 在 多 数 情况 下 ， 我 们 关心 的 是 特定 的 体系 结构 。 识 别 使 用 机 器 方言 机 
会 的 主要 技术 是 模式 匹配 。 搜 索 过 程 有 两 个 主要 部 分 。 第 一 部 分 是 寻找 那 种 可 用 更 快 、 更 专门 
的 指令 来 达到 其 目的 的 指令 。 第 二 部 分 首先 寻找 这 样 的 一 条 指令 ， 它 是 可 以 用 较 短 或 较 快 指令 
序列 归并 的 一 组 指令 中 的 第 一 条 指令 ; 找到 一 条 这 种 指令 便 触发 对 另 一 条 (E) 为 形成 适当 组 
合 所 需要 的 指令 的 寻找 。 除 非 目 标 体系 结构 允许 将 功能 独立 的 若干 指令 归并 为 一 条 指令 (对 于 
MIPS 体 系 结构 ， 在 某 些 情况 下 就 是 这 样 ) ， 通 常 在 依赖 DAG 上 (而 不 是 在 直线 代码 上 ) 执行 这 
种 搜索 效率 最 高 ， 并 且 也 很 有 效果 。 

在 所 有 RISC 体 系 结构 中 ， 对 于 那 种 构造 全 宽度 〈 即 32 位 或 64 位 ) 常数 的 代码 ， 如 果 发 现 
这 个 常数 短 得 足以 填充 在 指令 提供 的 直接 数 域 中 时 ， 则 存在 着 简化 它 的 机 会 。 尽 管 我 们 希望 完 
全 避免 生成 不 必要 的 构造 长 常数 的 指令 序列 ， 但 常常 更 可 取 的 是 生成 它们 而 使 得 代码 生成 较 简 
单 ， 同 时 将 对 它们 的 简化 遗留 到 有 可 能 做 此 工作 的 后 遍 优化 中 去 做 。 例 如 ，SPARC 指 令 序列 

sethi %hi (const), rig 

or r18, %lo(const), r18 
将 常数 值 const 放 至 r18。 如 果 const 的 高 20 位 都 是 0 或 都 是 1， 则 可 以 将 它 简化 为 


add r0,const,r18 


下 面 考虑 一 个 整 变量 乘 以 一 个 整 常数 的 乘法 。 具 体 地 ， 假 设 我 们 是 要 将 寄存 器 z1 中 的 一 


个 整 变量 乘 以 5 并 将 结果 存放 在 *2 中 。 在 多 数 体系 结构 中 ， 可 以 使 用 整数 乘法 指令 来 完成 ， 但 
乘法 指令 一 般 是 多 时 钟 周期 指令 ， 并 且 在 某 些 机 器 中 ， 如 PA-RISC， 需 要 将 操作 数 传送 到 浮 点 
寄存 器 ， 然 后 将 结果 传送 回 整数 寄存 器 。 不 过 有 比 这 代价 更 小 的 方法 。 对 于 PA-RISC， 我 们 可 
以 简单 地 生成 只 要 一 拍 的 指令 : 


SH2ADD ri,ril,r2 


该 指令 将 r1 左 移 两 位 并 加 上 它 原 来 的 值 ， 结 果 仍 存放 在 r1。 对 于 其 他 体系 结构 ， 可 以 使 用 相 
应 的 LIR 指 令 序列 : 

r2 ~ ri shl 2 

r2 = r2 + rl ， 

对 于 SPARC， 我 们 可 以 将 一 条 产生 一 个 差 值 的 减法 指令 和 对 该 减法 的 两 个 操作 数 进行 比较 
的 指令 归并 到 一 起 ， 即 使 得 

sub  ri,r2,r3 

subec ri,r2,r0 

bg Li 
变 成 

Subcc ri,r2,r3 

bg 11 

对 于 MIPS， 可 以 利用 下 面 的 指令 序列 (不 用 分 支 ) 确定 出 两 个 值 是 否 有 相同 的 符号 : 


slti r3,r1,0 
slti r4,r2,0 
and  r3,r3,r4 
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如 果 两 个 值 有 相同 的 符号 ， 序 列 结 束 时 r3 应 当 等 于 1; 否则 为 0。 
在 Motorola 88000、PA-RISC 和 Intel 386 系 列 中 ， 访 问 由 字 节 、 半 字 、 字 和 双 字 组 成 的 、 其 
索引 增 量 为 1 的 并 行 数组 ， 可 以 使 用 带 缩 放 的 读 取 和 存储 指令 。 如 果 z*2 和 3 分 别 指向 双 字 和 半 
字 的 两 个 数组 ， 并 且 r1 是 这 两 个 数组 的 索引 ， 则 读 取 这 两 个 数组 的 元 素 并 更 新 其 索引 到 这 两 
个 数组 的 下 一 个 元 素 可 以 只 用 下 述 Motorola 88000 指 令 序 列 来 完成 : 
ld.d r4,r2[ri] 


vld.h r6,r3[ri] . 
add  rí,ri,1 


而 不 需要 两 个 独立 的 索引 ， 一 个 增加 2， 另 一 个 增加 8; 也 可 能 还 不 需要 第 三 个 用 于 循环 迭代 计 
数 的 索引 。 | 

在 PA-RISC、POWER 和 PowerPC 中 ， 有 带 增 量 的 读 取 或 存储 指令 ， 这 种 指令 可 以 用 新 的 地 
址 值 替代 用 来 形成 存储 地 址 所 使 用 的 一 个 寄存 器 中 的 值 。 在 后 面 两 种 体系 结构 中 ， 更 新 总 是 发 
生 在 读 取 或 存储 之 后 ， 而 PA-RISC 可 以 指定 更 新 出 现在 操作 之 前 还 是 之 后 。 因 此 ， 在 PowerPC 
中 访问 一 个 半 字 数组 的 连续 元 素 ， 可 以 通过 重复 执行 

lhau r3,2(r1) 
在 PA-RISC 中 则 可 用 

LDHS,MA 2(0,r1),r3 

对 于 PA-RISC， 可 以 用 一 条 相 加 然后 分 支 的 指令 来 终止 一 个 循环 。 这 种 指令 首先 给 一 个 寄 
存 器 增加 一 个 直接 数 或 增加 一 个 寄存 器 中 的 值 ， 然 后 当 结果 满足 指定 的 条 件 时 做 分 支 转移 。 因 
此 ， 一 个 以 r1 作 为 索引 ， r2 包 含 该 索引 终 值 对 数组 进行 的 循环 ， 可 以 用 这 样 一 条 指令 来 终止 : 
ADDBT, <= r2,r1,L1 l 
其 中 L1 是 循环 体 的 第 一 条 指令 的 标号 。 

指令 归并 程序 可 能 会 导致 增加 超标 量 指令 组 的 数目 ， 这 种 指令 组 要 求 执行 一 串 指令 。 例 如 ， 
假设 我 们 有 一 个 有 三 个 流水 线 的 实现 〈 两 个 整数 和 一 个 浮 点 )， 并 且 有 图 18-22a 所 示 的 成 组 指令 

序列 ， 其 中 sub 必 须 先 于 br ，add2 必 须 跟 在 cmp 之 后 。 将 cmp 和 br 归并 成 一 条 比较 与 分 支 指令 

(cmpbr ) 会 导致 这 些 指令 需要 如 图 18-22b 所 示 的 4 个 流出 槽 ,而 不 是 它们 原来 需要 的 3 个 流出 槽 。 
将 指令 归并 程序 和 指令 分 解 程序 作为 可 被 指令 调度 器 使 用 的 子 程序 ， 从 而 让 指令 调度 器 能 够 尝 
试 可 能 的 指令 序列 ， 来 确定 什么 样 的 指令 序列 能 够 产生 最 好 的 调度 ， 可 以 减轻 这 种 影响 ， 但 在 
这 样 做 时 需要 小 心 限制 这 种 尝试 的 程度 ， 因 为 大 多 数 调度 问题 至 少 都 是 NP- 困 难 的 问题 。 


load addi flti addi flti 
cmp sub f1t2 f1t2 


br add2 f1t3 fit3 





图 18-22 a) 超标 量 处 理 机 代码 ， 对 它 进行 b) 中 所 示 指 令 归并 能 降低 性 能 的 例子 


也 可 以 反 过 来 让 指令 归并 程序 包含 流水 线 结构 有 关 的 信息 ， 并 构造 指令 归并 程序 ， 使 它 能 
够 估计 它 所 做 的 归并 对 指令 调度 的 影响 一 一 但 这 样 做 很 可 能 会 使 得 归并 程序 显著 地 复杂 化 ， 并 
且 这 种 做 法 在 实际 中 效果 不 是 很 好 ， 因 为 除非 在 基本 块 DAG 上 进行 调度 ， 一 般 调度 所 使 用 的 
代码 窗口 通常 比 罕 孔 优化 程序 所 使 用 的 窗口 要 宽 得 多 。 
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上 面 指出 的 只 是 少数 几 种 机 器 方言 的 例子 。 用 心 的 编译 器 开发 者 通过 深入 了 解 所 编译 的 指 
令 集 和 仔细 观察 已 生成 代码 的 实例 ， 能 找到 许多 其 他 的 方言 例子 。 

对 于 CISC 体 系 结构 的 实现 ， 有 时 会 需要 有 指令 分 解 (instruction decomposing), ， 即 指令 
归并 的 逆 操 作 ， 它 将 一 条 指令 转换 为 执行 相同 功能 的 一 串 指令 。 在 图 21-23 和 图 21-24 中 为 
Intel 386 体 系 结构 系列 生成 的 关于 子 程序 s1 () 和 对 应 的 主 程序 的 代码 中 ,可 以 看 到 这 种 情形 。 
嵌入 在 主 程序 中 的 子 程序 的 代码 是 CISC 风 格 的 代码 ， 而 子 程序 中 的 代码 是 RISC 风 格 的 (并 且 
已 按 展开 因子 4 展开 )。 注 意 ， 可 以 先生 成 这 两 种 代码 中 的 任何 一 种 ， 然 后 从 其 中 之 一 产生 另 
一 种 。 


18.13 小 结 


本 章 的 内 容 涵盖 了 控制 流 优 化 、 不 可 到 达 代 码 和 死 代码 删除 ， 以 及 其 余 一 些 最 好 在 程序 的 
低级 代码 上 来 执行 的 全 局 优化 ， 即 静态 分 支 预测 、 机 器 方言 和 指令 归并 。 其 中 的 某 一 些 优 化 ， 
如 死 代码 删除 ， 在 编译 期 间 可 以 多 次 执行 而 得 到 好 处 。 另 一 些 优化 则 最 好 在 低级 中 间 代 码 上 或 
结构 化 形式 的 汇编 或 机 器 语言 上 来 进行 。 

除 死 代 码 删除 外 ， 这 些 优化 中 的 大 部 分 优化 ， 当 作用 于 一 段 具 体 代 码 一 次 时 ， 所 产生 的 影 
响 很 小 。 但 是 ， 当 将 它们 全 部 施加 于 整个 过 程 时 可 以 导致 实质 性 的 节省 ， 尤 其 是 当 这 些 优化 施 
加 于 频繁 执行 的 循环 时 。 

产生 较 大 基本 块 的 控制 流转 换 能 够 潜在 地 增加 指令 级 并 行 性 ， 而 指令 级 并 行 性 对 于 超标 量 
实现 尤其 重要 。 

死 代 码 删除 去 掉 那 些 已 确定 是 对 计算 结果 不 起 作用 的 指令 。 它 是 一 种 重要 的 优化 ， 不 仅仅 
是 因为 有 些 程序 在 编写 时 就 有 死 代码 ， 而 且 也 因为 其 他 许多 优化 会 创建 死 代码 。 我 们 建议 在 编 
译 优化 期 间 多 次 执行 它 ， 如 图 18-23 所 示 。 

随 着 高 速 缓存 的 延迟 相对 于 处 理 器 主 频 的 差距 越 来 越 大 ， 分 支 预 测 的 重要 性 也 在 增加 。 精 
确 的 分 支 预测 是 重要 的 ， 因 为 它 增 加 了 处 理 机 从 指令 高 速 缓存 中 ,或 从 存储 层次 结构 的 其 他 部 
件 中 读 取 正确 的 连续 路 径 的 机 会 。 

本 章 讨论 的 其 他 几 种 优化 是 后 遍 优 化 或 窥 孔 优化 。 它 们 包括 机 器 方言 和 指令 归并 ， 通 
常 属 于 最 后 执行 的 几 种 优化 ， 且 总 是 在 代码 生成 之 后 才 执 行 。 它 们 可 以 通过 在 已 生成 的 代 
码 中 或 在 依赖 DAG 上 移动 一 个 小 小 的 窗口 或 一 个 小 孔 来 寻找 可 施加 对 应 优化 的 代码 片段 而 
实现 。 

图 18-23 给 出 了 推荐 的 激进 优化 编译 器 中 的 优化 顺序 ; 黑体 字 突出 了 本 章 涉及 的 这 些 优化 。 


18.14 进一步 阅读 


首先 讨论 无 开关 化 的 论文 是 [AllC72a]。 

18.10 节 给 出 的 死 代码 检测 算法 是 从 Kennedy [Kenn8l1] 开 发 的 算法 衍生 而 来 的 。 

Knoop、Riithing 和 Steffen 的 死 代码 删除 到 部 分 死 代 码 删除 的 扩充 是 在 [KnoR94] 中 找到 的 。 

通过 对 分 支 实 际 发 生 的 情况 和 完美 静态 预测 器 预测 的 情况 进行 比较 ， 来 确定 分 支 预测 策略 
的 效率 ， 是 由 Ball 和 Larus 在 [BalL93] 中 提出 的 。 那 篇 论文 也 介绍 了 若干 有 用 的 分 支 预测 启发 式 
方法 。 更 新 一 点 的 论文 ， 例 如 [Patt95] 和 {CalG95]， 还 介绍 了 一 些 更 好 的 启发 式 方法 。 

[GilG83] 中 描述 了 斯 坦 福 MIPS 体 系 结构 。 
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数组 引用 的 标量 替换 
数据 高 速 缓存 优化 

























过 程 集成 
尾 调 用 优化 ， 包 括 尾 递归 删除 
RARE 
稀有 条 件 常 数 传播 
过 程 间 常 数 传播 

过 程 特殊 化 和 克隆 
稀有 条 件 常数 传播 








全 局 值 编号 
局 部 和 全 局 复写 传播 
稀有 条 件 常 数 传播 
死 代码 删除 


C1 





局 部 和 全 局 公共 子 表达 式 删除 
循环 不 变 代码 外 提 







归纳 变量 强度 前 弱 
线性 函数 测试 替代 
归纳 变量 消除 

不 必要 边界 检查 删除 
控制 流 优化 


C4 











ER 

分 支 优化 和 条 件 传送 
死 代 码 删除 

软 流水 ， 附 带 循环 展开 、 变 量 扩张 、 
寄存 器 重 命 名 和 层次 归 约 
基本 块 和 分 支 调度 1 

图 着 色 寄 存 器 分 配 
基本 块 和 分 支 调 度 2 

过 程 内 指令 高 速 缓存 优化 






过 程 间 寄存 器 分 配 
ES EINE S 
过 程 间 指 令 高 速 缓存 优化 


图 18-23 优化 顺序 ， 黑 体 字 标 明了 控制 流 和 低级 优化 
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18.15 练习 


18.1 
18.2 


编写 一 个 检测 和 执行 18.3 节 讨论 的 if 化 简 的 ICAN 过 程 。 

编写 一 个 检测 LIR 代 码 中 尾 融 合 机 会 并 做 相应 转换 的 ICAN 过 程 。 通 过 搜索 基本 块 
DAG 寻 找 以 叶子 结 点 结束 的 公共 指令 序列 ， 或 者 寻找 作为 叶子 或 它们 的 前 驱 出 现 的 
不 相关 指令 的 集合 ， 从 中 能 有 什么 收获 吗 ? 


18.3 给 出 三 个 利用 条 件 传送 能 使 它 更 具 效 率 的 有 用 指令 序列 的 例子 。 


18.4 


18.5 


18.6 


18.7 


说 明 图 18-19 中 的 死 代 码 删 除 算法 能 识别 并 删除 那 种 只 对 相互 定义 有 贡献 ， 因 而 不 是 
必要 的 变量 集合 {v1, Vo vs …)} 的 定义 。 

对 你 可 用 来 计算 的 正常 应 用 程序 设置 测量 器 ， 并 打印 出 关于 每 一 个 条 件 分 支 发 生 转 
移 的 百分比 统计 信息 。 从 由 此 得 到 的 结果 中 你 能 推导 出 对 静态 分 支 预测 有 用 的 规则 
吗 ? 

设计 一 种 用 于 归并 或 转换 汇编 语言 指令 序列 为 机 器 方言 的 模式 语言 。 你 将 需要 一 种 
手段 ， 例 如 ， 能 抽象 地 表示 寄存 器 ， 使 得 你 可 以 要 求 在 两 条 指令 中 使 用 同一 个 寄存 
器 ， 而 无 需 约束 这 个 寄存 器 是 一 个 特殊 的 寄存 器 。 

写 出 一 个 寻找 汇编 语言 中 指令 归并 和 机 器 方言 机 会 的 程序 ， 其 中 指令 归并 和 机 器 方 
言 用 练习 18.6 中 设计 的 模式 语言 表示 ， 并 将 该 程序 应 用 于 汇编 代码 。 这 个 程序 应 当 
将 模式 文件 和 它 要 处 理 的 汇编 代码 文件 作为 输入 文件 。 
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模块 化 一 直 被 看 成 是 程序 结构 的 优点 一 一 并 且 确 实 是 这 样 ， 因 为 将 程序 适当 地 分 解 成 若干 
过 程 有 助 于 创建 结构 良好 且 易 于 理解 和 维护 的 程序 。 最 近 一 些 年 来 ， 面 向 对 象 的 语言 进一步 助 
长 了 这 种 趋势 。 尽 管 某 些 语言 ， 如 C++， 给 程序 员 提 供 了 明显 的 手段 来 指明 一 个 应 当 内 联 的 过 
程 ， 但 大 多 数 语言 鼓励 这 种 观点 ， 即 ， 一 个 过 程 是 由 一 个 接口 和 一 至 多 个 实现 它 的 黑匣子 组 成 
的 ， 或 更 一 般 地 ， 一 种 数据 类 型 或 一 个 类 是 由 一 个 接口 和 一 至 多 个 实现 它 的 黑匣子 组 成 的 。 这 
种 方法 鼓励 抽象 化 ， 并 因此 有 利于 良好 的 程序 设计 和 维护 ， 但 它 同 时 也 抑制 了 优化 ， 并 因此 导 
Ba] REPEL SRR. RAR ARR. BA BIR 
被 调用 的 过 程 可 能 使 用 和 改变 它 能 访问 到 的 所 有 变量 , 并 且 调 用 过 程 可 能 提供 任意 值 作为 参数 。 
这 两 种 假设 显然 都 对 优化 有 抑制 作用 。 

迄今 为 止 ， 我 们 已 经 讨论 的 所 有 优化 ， 除 了 尾 调 用 优化 〈15.1 节 )、 过 程 集 成 (15.2 节 ) 和 
Ae AR (15335) 是 过 程 之 间 的 优化 之 外 ， 几 乎 都 是 过 程 内 的 〈intraprocedural) 优化 ， 也 就 
是 说 ， 它 们 是 作用 于 单个 过 程 之 内 的 ， 没 有 考虑 到 调用 所 在 过 程 的 上 下 文 以 及 被 它 调用 的 过 程 。 

过 程 间 优化 (interprocedural optimization) 指 的 是 利用 过 程 集合 之 间 的 调用 关系 ， 对 其 中 
的 一 至 多 个 过 程 ， 或 按 它们 相互 之 间 的 关系 来 驱动 优化 的 一 些 优化 。 例 如 ， 如 果 我 们 能 确定 出 
一 个 程序 中 对 过 程 f (i, j,k) 的 所 有 调用 都 传递 常数 2 作为 i 的 值 ， 就 可 能 将 常数 2 传播 到 f () 
的 代码 中 。 类 似 地 ， 如 果 我 们 能 够 确定 每 一 个 调用 传递 给 i 的 值 不 是 2 就 是 5， 并 能 识别 出 哪 一 
个 调用 传递 的 是 哪 一 个 值 ， 我 们 就 可 能 用 两 个 过 程 E_2 () 和 f£_5 () 来 替代 f ( ) 一 一 这 种 处 理 称 
为 过 程 克隆 一 一 并 用 它们 两 者 之 一 适当 地 替换 f ( ) 的 调用 。 类 似 地 ， 如 果 我 们 知道 被 调用 的 过 
程 修改 的 只 是 它 自 己 的 局 部 变量 和 特定 的 参数 ， 只 要 我 们 考虑 到 了 过 程 的 已 知 副作用 ， 就 可 以 
自由 地 优化 在 它 的 调用 周围 的 代码 。 

同 过 程 内 的 情形 一 样 ， 过 程 间 优化 由 控制 流 分 析 、 数 据 流 分 析 、 别 名 分 析 以 及 相应 的 转换 等 一 系 
列 的 遍 组 成 。 它 与 过 程 内 优化 的 不 同 之 处 在 于 ， 过 程 间 分 析 得 到 的 许多 好 处 是 因为 它 改善 了 单个 过 程 
的 优化 可 能 性 和 优化 效果 ， 而 不 是 转换 了 过 程 之 间 的 关系 所 致 。 在 这 一 章 ， 我 们 探讨 下 面 一 些 内 容 : 

1. 过 程 间 控制 流 分 析 ， 特 别 是 程序 控制 流 图 的 构造 ; 

2. 过 程 间 数 据 流 分 析 的 若干 种 方法 ， 包 括 流 敏 感 的 与 流 不 敏感 的 副作用 分 析 和 常数 传播 ; 

3. 过 程 间 别 名 分 析 ; 

4. 如 何 利用 过 程 间 分 析 获 得 的 信息 进行 优化 ; 

5. 过 程 间 寄 存 器 分 配 。 

在 本 章 的 余下 部 分 ， 除 非特 别 指明 ， 我 们 均 假 定 所 有 参数 都 是 传 地 址 参数 ， 而 将 本 章 讨论 
的 方法 为 适应 其 他 参数 传递 规则 的 修改 留 给 读者 完成 。 注 意 ， 以 传 值 方式 传递 一 个 非 指针 不 会 
创建 别名 ， 而 以 传 值 方式 传递 一 个 指针 则 与 以 传 地址 方式 传递 它 所 指 的 对 象 十 分 类 似 。 
” ”有 些 研究 认为 过 程 闻 分 析 是 徒然 的 ， 或 代价 太 大 而 不 值得 做 (参见 19.10 节 的 引文 )。 例 如 ， 
Richardson 和 Ganapathi 研 究 比 较 了 过 程 集成 对 于 优化 的 作用 和 过 程 间 优 化 的 效率 。 他 们 发 现 过 
程 集成 对 增强 优化 非常 有 效 ， 但 它 显 著 地 降低 了 编译 速度 ， 常 常 使 速度 慢 了 9 倍 之 多 。 另 一 方 
面 ， 他 们 进行 的 有 限 的 过 程 间 分 析 则 显示 优化 从 它 获 益 甚 少 。 另 外 ， 过 程 间 分 析 给 编译 器 增加 
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了 较 重 的 负担 ， 同 时 也 增加 了 编译 器 的 复杂 性 。 一 般 而 言 ， 过 程 闻 分 析 的 典型 代价 和 作用 还 没 
有 得 到 广泛 认识 ， 有 些 迹象 显示 ， 它 对 于 并 行 化 编译 器 比 对 串 行 机 编译 器 更 有 价值 。 

将 一 个 程序 分 成 多 个 编译 单位 进行 编译 影响 了 过 程 间 分 析 和 优化 的 效果 ， 因 为 无 法 确定 还 
没有 被 编译 的 那些 例 程 的 作用 。 另 一 方面 ， 现 代 程 序 设计 环境 也 通常 提供 关于 编译 单位 、 它 们 
之 间 的 关系 ， 以 及 与 它们 有 关 的 信息 的 知识 库 ， 这 就 为 过 程 间 分 析 提 供 了 保存 和 访问 相关 信息 
的 一 种 途径 (参见 19.8 节 )。 

在 第 10 章 的 开始 和 12.2 节 讨论 的 关于 可 能 与 一 定 信息 、 流 敏感 与 流 不 敏感 信息 的 区 别 ， 也 适 
应 于 过 程 间 优 化 。 具 体 而 言 ，19.2.1 节 讨论 的 MODO 和 REFO 的 计算 是 流 不 敏感 问题 的 例子 ，DEFO 
和 USEO 函 数 是 流 敏感 问题 的 例子 。 另 外 ，DEFO 是 一 定 概要 信息 ， 而 USEO 是 可 能 概要 信息 。 


19.1 过 程 间 控制 流 分 析 : 调用 图 


过 程 间 控制 流 分 析 涉 及 的 一 个 问题 是 构造 程序 的 调用 图 。。 给 定 一 个 由 过 程 p,, …, ps 组 成 
的 程序 P，P 的 (静态 ) 调用 图 是 由 结 点 集合 N= (ps …, pu}、 调 用 点 标号 ?集合 9、 带 标号 的 边 
集合 E SNxNxS， 以 及 一 个 区 别 对 待 的 入 口 结 点 rE N (代表 主 程序 ) 组 成 的 图 Gp = <N, S, E, 
r- (通常 就 写作 G)， 其 中 对 于 每 一 个 e= <p se pj». s, 表示 Pi 中 对 p; 的 一 个 调用 点 。 如 果 过 程 
pop, 只 有 一 次 调用 ， 我 们 可 以 省 略 调用 点 s: ， 并 将 此 边 写成 p; > pj. 

作为 调用 图 的 一 个 例子 ， 考 虑 图 19-1 中 的 程序 框架 。 过 程 f 调 用 g 和 h，g 调 用 h 和 i ， 而 i 调 
用 g 和 j; 注意 ，f 有 两 次 对 g 的 调用 。 这 个 程序 的 调用 图 给 出 在 图 19-2 中 。 入 口 结 点 由 加 粗 的 
圆圈 指明 ，£ 对 g 的 两 次 调用 由 连接 它们 的 边 之 上 的 两 个 标号 指明 。 


procedure f( ) 
begin 

call g( ) 

call g( ) 

call h( ) 
end jl f 
procedure g( ) 
begin 

call h( ) 

call i( ) 
end lg 
procedure h( ) 
begin 
end || h 
procedure i( ) 

procedure j( ) 

begin 

end || j 
begin 

call g( ) 

call j( ) 
end lli 


Om- 





图 19-1 一 个 程序 框架 图 19-2 图 19-1 中 程序 框架 的 调用 图 
与 过 程 分 析 中 的 深度 为 主 顺 序 和 其 他 若干 种 顺序 一 样 ， 也 有 一 些 有 助 于 过 程 间 问 题 、 至 少 有 助 于 
日 、 如 我 们 将 看 到 的 ， 调 用 图 实际 上 是 多 图 (multigraph)， 即 从 一 个 结 点 到 另 一 个 结 点 具有 多 条 有 向 边 的 图 ， 或 


换言之 ， 它 是 有 些 结 点 具有 多 个 标号 的 图 。 但 是 ， 同 这 一 领域 的 多 数 作者 一 样 ， 我 们 简单 地 称 之 为 图 。 
O 注意 ， 在 高 级 语言 中 ， 行 号 通常 不 足以 作为 调用 标号 ， 因 为 在 同一 行 中 可 以 有 多 次 调用 。 
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非 递归 问题 的 顺序 。 一 种 顺序 称 为 调用 顺序 (invocation order)， 这 种 顺序 处 理 一 个 过 程 先 于 被 该 过 程 
调用 的 所 有 过 程 ， 即 按 调用 图 的 宽度 为 主 顺序 。 另 一 种 顺序 称 为 送 调 用 顺序 (reverse invocation order), 
它 是 在 处 理 完 一 个 过 程 内 的 所 有 被 调用 过 程 之 后 才 处 理 该 过 程 。 如 果 图 19-1 和 图 19-2 的 例子 中 没有 i 对 
g 的 调用 ， 则 £、g、h、i、j 列 出 的 就 是 它 的 结 点 的 调用 顷 序 。 如 我 们 的 例子 所 示 ，、 递 归程 序 的 过 程 
之 间 没 有 这 种 顺序 ， 除 非 我 们 将 强 连 通 分 量 晓 化 为 单个 结 点 ， 并 关心 的 是 这 种 结 点 之 间 的 调用 。 

过 程 间 分 析 使 用 的 另外 两 种 顺序 涉及 过 程 的 静态 修 套 。 由 外 向 内 顺序 (outside-in order) 
处 理 每 一 个 过 程 先 于 (词法 上 ) 静态 供 套 在 其 内 的 所 有 过 程 。 由 内 向 外 顺序 (inside-out order) 
处 理 每 一 个 过 程 后 于 (词法 上 ) 静态 嵌 套 在 其 内 的 所 有 过 程 。 对 于 我 们 的 例子 ，j、fE、g、h、 
i 是 调用 图 的 一 种 由 内 向 外 顺序 。 

有 两 个 问题 会 导致 难于 构造 调用 图 ， 即 一 个 程序 分 成 多 个 编译 单位 进行 编译 和 过 程 值 变量 。 
如 果 不 存在 这 两 个 问题 ， 构 造 程序 的 调用 图 就 是 一 件 容易 的 事情 ， 例 如 图 19-3 中 过 程 
Build Call Graph () 的 ICAN 代 码 所 示 。 在 这 个 算法 中 ，? 是 过 程 集合 ， 它 由 要 构造 调用 图 的 程 
序 中 的 过 程 组 成 ，N 是 此 图 中 结 点 的 集合 S ，r 是 根 过 程 ( 常 称 为 main)，E 是 图 中 带 标号 的 边 集合 。 
标号 表示 调用 点 ， 即 ，<p, i q» € E 当 且 仅 当 过 程 p 中 的 调用 点 i 调用 gq。 该 算法 用 到 了 如 下 一 些 过 程 : 

1. numinsts(p) 是 过 程 p 中 的 指令 条 数 。 

2. callset(p, 让) 返回 由 过 程 p 的 第 ;条 指令 调用 的 过 程 集合 。 

分 开 编 译 引 起 的 问题 ， 可 以 通过 仅 当 整个 程序 一 次 提交 给 编译 器 时 才 做 过 程 间 分 析 和 优化 
而 绕 过 ， 也 可 以 通过 在 每 一 次 编译 时 保存 这 次 编译 所 看 到 的 部 分 调用 图 的 表示 ，、 并 以 逐渐 增加 
的 方式 建立 整个 调用 图 来 解决 。 在 前 面 这 个 例子 中 ， 如 果 f 和 g 组 成 一 个 编译 单位 ， 其 他 三 个 
过 程 组 成 另 一 个 编译 单位 ， 则 有 如 图 19-4 所 示 的 两 个 部 分 调用 图 ， 过 程 间 优 化 可 以 “ 粘 合 ”这 


LabeledEdge = Procedure x integer x Procedure 


procedure Build, Call Graph(P,r,N,E,numinsts) 
P: in set of Procedure 
r: in Procedure 
N: out set of Procedure 
E: out set of LabeledEdge 
numinsts: in Procedure —> integer 
begin 

i: integer 
p, q: Procedure 
OldN := Ø: set of Procedure 
N := {r} 
E := 9 
while OldN * N do 

p := €(N - OldN) 

O1dN := N 

for i := 1 to numinsts(p) do 

for each q € callset(p,i) do 
N u= {q} 
E v= {<p,i,q@} 
od 

od 

od 


end {| Build Call Graph 图 19-4 将 图 19-1 分 成 两 个 部 分 进行 编译 
图 19-3 构造 调用 图 而 得 到 的 两 个 调用 图 





O 注意 ， 只 要 P 中 每 一 个 过 程 都 是 从 z 可 达 的 ， 就 有 P=N。 
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两 个 图 到 一 起 而 形成 一 个 完整 的 静态 调用 图 。 

构造 调用 图 的 算法 十 分 简单 ， 因 此 我 们 不 提供 关于 其 操作 的 例子 。 读 者 可 以 自己 构造 一 个 。 

过 程 值 变量 引起 的 问题 较 难 解决 。Weihl [Weih80] 已 证 明 构 造 具有 过 程 变量 的 递归 程序 的 调 
用 图 是 PSPACE- 困 难 的 ， 因 此 这 种 处 理 在 时 间 和 空间 上 代价 都 非常 大 。 处 理 这 个 问题 的 一 种 方 
法 是 以 逐渐 增加 的 方式 构造 调用 图 ， 如 图 19-5、 图 19-6 和 图 19-7 中 的 代码 所 示 。 这 三 张 图 给 出 了 
三 个 过 程 Builqd_Call_Graph with_PVVs ()、Process_Inst() 和 Process_Call()。 我 
们 眼下 先 暂 时 忽略 Build_Call_Graph_with_PVVs () 中 最 外 层 的 repeat 循 环 。 我们 首先 构 
造 由 明显 的 调用 而 形成 的 图 。 然 后 确定 过 程 值 变量 的 初始 值 集合 ， 并 将 它们 传播 到 所 有 的 使 
用 一 一 即 ， 传 播 给 过 程 值 参 数 、 赋 值 和 返回 一 一 并 从 那儿 传播 到 使 用 过 程 值 变量 的 调用 点 。 过 程 
Process, Inst (p, i, Inst) 处 理 过 程 内 的 每 一 条 指令 ,而 过 程 Process_Call (p, i, 9) 处 理 调用 。 
这 个 算法 使 用 了 如 下 四 种 数据 结构 来 记录 与 过 程 值 变量 有 关 的 信息 : 

1. PVVs 记 录 所 有 过 程 值 变量 。 

2. PVCal1s 记 录 调 用 过 程 值 变量 的 调用 点 。 

3. PVVals 记 录 赋 予 过 程 值 变量 的 、 或 与 过 程 值 变量 结合 的 、 或 返回 给 过 程 值 变量 的 过 程 常数 。 

4. PVBinds 记 录 赋 了 予 过 程 值 变量 的 、 或 与 过 程 值 变量 结合 的 、 或 返回 给 过 程 值 变量 的 过 
程 值 变量 。 


P, N, W: set of Procedure 

E: set of LabeledEdge 

PVVs: set of ProcVar 

PVCalls: set of LabeledEdge 

PVVals: ProcVar —> set of Procedure 

PVBinds: ProcVar —> set of ProcVar 

preturns: Procedure x integer x Var X Procedure x Var 


procedure Build. Call, Graph with, PVVs(r,Inst,numinsts) 
r: in Procedure 
Inst: in Procedure 一 > array [-:] of Instruction 
numinsts: in Procedure —> integer 
begin 
p. q, u, v: ProcVar U Procedure 
i, j: integer 
more, change: boolean 
N :=W := {r} 
E := PVVs := PVCalls := PVVals := PVBinds := Ø 
|| repeat until the call graph stops expanding 
repeat 
more :- false 
|| accumulate procedure-valued variables and 
|| constants, calls, values, and bindings 
while W * Ø do 
p := oW; W -= {p} 
for i := 1 to mminsts(p) do 
more V= Process Inst(p,i,Inst) 
od 
od 


|| propagate bindings 
repeat 

change := false 

for each u € PVVs do 





图 19-5 构造 含 过 程 值 变量 的 调用 图 
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for each v € PVVs (v * u) do 
if v € PVBinds(u) 
& PVBinds(u) * PVBinds(v) then 
PVBinds(u) u= PVBinds(v) 
change := true 


fi 
od 
od 
until !change 
|| add nodes and edges to the call graph 
for each (p,i,q? € PVCalls do 
for each u € PVVals(q) do 
N v- (u) 
E v= {<p,i,q>} 
W u= {u} 
od 
for each u € PVBinds(q) do 
for each v € PVVals(u) do 
N u= {v} 
{<p,i,v>} 
{v} 


until !more 
end || Build Call Graph with PVVs 


图 19-5 (8%) 





proc.const, proc var: Üperand —> boolean 

nparams: Procedure 一 > integer 

param: (Procedure x integer) —> Operand 

arg: (Procedure x integer x integer) —> Operand 
in.param, out param: (Procedure x integer) 一 > 0perand 


procedure Process Inst(p,i,Inst) returns boolean 

p: in Procedure 

i: in integer 

Inst: in Procedure —> array [::] of Instruction 
begin 

q, u, v: ProcVar u Procedure 

j: integer 


more :- false: boolean 


|! accumulate calls 
for each q € callset(p,i) do 
more V= Process Call(p,i,q) 
if preturns(p,i,u,q,v) then 
if proc.const(v) then 
PVVs u= {u} 
PVVals (u) v= {v} 
if v # N then 
more := true 
fi 
else 
PVVs u= {u,v} 


19-6 在 构造 含 过 程 值 变 量 的 调用 图 中 使 用 的 过 程 Process_Inst () 
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PVBinds(u) v= (v) 
fi 
fi 
od 
if Inst(p)[il.kind = valasgn 
& proc var(Inst(p)[i].left) then 
|| accumulate bindings 
if proc.const(Inst(p)[i].opd.val) then 
PVVs u= (Inst(p) [i].1eft) 
PVVals(Inst(p)[i].left) v= (Inst(p)[i].opd.val) 
if Inst(p)[il].opd.val € N then 
more := true 
fi 
else 
PVVs v= (Inst(p)[i].1eft,Inst(p)[i].opd.val) 
PVBinds(Inst(p)[i].left) v= (Inst(p)[il.opd.va1) 
fi 
fi 
return more 
end || Process_Inst 


图 19-6  (£&) 


procedure Process Call(p,i,q) returns boolean 
p: in Procedure 
i: in integer 
q: in ProcVar U Procedure 
begin 
j: integer 
more :- false: boolean 
if proc.const(q) then 
|! add nodes and edges to the call graph 
N u= {q} 
E u= {(p,i,q>} 
W u= {q} 


|| deal with passing procedure-valued objects as parameters 
for j := 1 to nparams(q) do 
if proc_var(param(q,j)) & in. param(q,j) then 
if proc.const(arg(p,i,j)) then 
PVVs v= {param(q, j)} 
PVVals(param(q,j)) v= {arg(p,i,j)} 
if arg(p,i,j) £ N then 
more := true 
fi 
else 
PVVs u= {param(q,j),arg(p,i,j)} 
PVBinds(param(q,j)) v= {arg(p,i,j)} 
fi 
fi 
|| and return of procedure-valued objects 
if proc_var(param(q,j)) & out_param(q,j) then 
if proc_const(arg(p,i,j)) then 
PVVs u= (arg(p,i,j)) 
PVVals(arg(p,i,j)) v= (param(q,j)) 
if param(q,j) # N then 
more := true 


图 19-7 在 构造 含 过 程 值 变 量 的 调用 图 中 使 用 的 过 程 Process_Call () 
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fi 
else 
PVVs u= {param(q,j) ,arg(p,i,j)} 
PVBinds(arg(p,i,j)) v= {param(q,j)} 
fi 
fi 


od 
else 


PVVs v= {q} 
PVCalls us {<p,i,q>}’ 
fi 
return more 
end {| Process Call 


图 19-7 (#8) 


程序 中 有 9 种 与 过 程 值 变 量 有 关 的 行为 ， 这 9 种 行为 以 及 我 们 对 它们 采取 的 初始 动作 如 下 : 

1. 在 过 程 p 的 s 点 调用 过 程 值 变 量 vp: 将 三 元 组 <p, s, Yp> 放 到 PVCalls 中 。 

2. 过 程 常数 p 作 为 实 参 与 一 个 过 程 值 形 参 vp 结合 : 将 偶 对 <vp, p> 放 到 有 限 函 数 PVVals 中 ， 
并 将 vp 放 到 PVVs 中 。 

3. 过 程 值 变量 wp 作为 实 参与 一 个 过 程 值 形 参 久 结合 : 将 偶 对 <vp, fp> 放 到 有 限 函 数 
PVBinds 中 ， 并 将 这 两 个 过 程 变量 放 到 PVVs 中 。 

4. 将 一 个 过 程 值 变 量 vp1 赋 给 另 一 个 过 程 值 变 量 vp2: 将 偶 对 <vp1, vp2> 放 到 PVBinds 中 ， 
并 将 这 两 个 过 程 变 量 放 到 PVVs 中 。 

5. 将 一 个 过 程 值 常数 p 赋 给 一 个 过 程 值 变 量 vp: 将 偶 对 <vp, p> 放 到 PVVals 中 ， 并 将 vp 放 
到 PVVs 中 。 | 

6. 过 程 值 变量 wp 与 一 个 调用 的 过 程 值 输出 参数 甸 结 合 : 将 偶 对 <vp, 记 > 放 到 PVBinds 中 ， 
并 将 这 两 个 过 程 变量 放 到 PVVs 中 。 

7. 过 程 值 常数 p 与 一 个 调用 的 过 程 值 输出 参数 名 结合 : 将 偶 对 < 加, p> 放 到 PVVals 中 ， 并 将 
户 放 到 PVVs 中 。 

8. 返回 一 个 过 程 值 变量 wp1 给 一 个 过 程 值 变量 wp2: 将 偶 对 <vp1, vp2> 放 到 PVBinds 中 ,并 
将 这 两 个 过 程 变量 放 到 PVVs 中 。 

9. 返 回 一 个 过 程 值 常数 p 给 一 个 过 程 值 变 量 p: 将 侦 对 <p,p> 放 到 PVVals 中 ， 并 将 wp 放 到 PVVs 中 。 

在 这 些 初始 动作 之 后 ， 我 们 根据 PVCal1s、PVVals 和 PVBin9s 为 每 一 个 过 程 值 变量 构造 能 够 与 
之 结合 、 给 它 赋值 、 或 返回 给 它 的 过 程 值 变 量 集合 ; 然后 对 每 一 个 过 程 值 变量 的 调用 点 、 以 及 对 每 一 
个 可 能 作为 其 值 与 之 结合 的 过 程 常数 构造 调用 图 中 的 一 条 边 。Bui 1G_call_Graph_with_PVVs () 的 
最 外 层 循环 考虑 到 了 程序 的 一 个 或 多 个 部 分 可 能 仅 当 借助 于 调用 过 程 值 变量 才能 到 达 的 情况 。 

该 算法 中 用 到 的 过 程 如 下 : 

1. numinsts (p) 是 过 程 p 中 的 指令 条 数 。 

2. Inst (p) [1. .numinsts (p) ] 是 构成 过 程 p 的 指令 组 成 的 数组 。 

3. callset (p, i Inl 由 过 程 p 的 第 i 条 指令 调用 的 过 程 集合 。 

4. proc, const (p) 返 回 true， 如 果 p 是 一 个 过 程 常数 ， 否 则 返回 false。 

5. proc_var (p) 返 回 true， 如 果 p 是 一 个 过 程 值 变量 ; 否则 返回 false。 

6. nparams (p) 返回 过 程 p 的 形 参 个 数 。 

7. arg (p, i,j) 返回 第 i 条 指令 调用 的 那个 过 程 p 的 第 个 实 参 。 
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8. param (p, j) 返回 过 程 p 的 第 j 个 形 参 。 


£19 # 


9. in_param(P,D 返 回 true， 如 果 p 的 第 ;个 参 数 从 它 的 调用 者 接收 一 个 值 ; 否则 返回 false。 
10. out_param (p, 站 返回 true， 如 果 p 的 第 i 个 参数 返回 一 个 值 给 它 的 调用 者 ; 否则 返回 false。 
11. preturns (p, i, u, q, vy) 返回 true， 如 果 p 中 第 i 条 指令 调用 过 程 4，4q 返 回 其 值 于 变量 v， 


Tv BUS UAE Ru. 


这 种 传播 过 程 产 生 的 是 一 种 保守 的 近似 调用 图 ， 但 对 于 递归 程序 可 能 需要 指数 量 级 的 时 间 ， 
因此 应 用 它 时 需要 小 心 。 注 意 ; 我 们 产生 的 是 流 不 敏感 可 能 调用 信息 ; 也 可 以 使 它 是 流 敏感 的 ， 但 
那样 会 导致 增加 额外 的 计算 代价 ， 还 应 注意 的 是 ， 还 存在 一 种 我 们 未 处 理 的 实际 情况 ， 即 从 库 例 程 


反 过 来 调用 程序 中 的 过 程 的 情形 。 

作为 构造 含 过 程 值 变量 程序 调用 图 的 例子 ， 考 虑 图 19-8 所 示 
的 程序 框架 。 假 定 E () 是 主 过 程 ， 一 开始 我 们 有 N=W= {£}; 并 
HE, PVVs, PvCalls, PVValsflPVBinds#AB. 
Build Call Graph with, PVVs(f, Inst, numinsts) 中 
ARTE RS) ERrebeat(l AR ZAMwhilefPikHp=f. W-9. 
i= 1, # iW 用 Process Inst(f, 1, Inst). 
Process, Inst () 调 用 Process_cal1l(f, 1, g) ， 后 一 过 程 设 
EN-(f,g). E={<f, 1, g>} 和 W= {g) ， 并 返回 false。 然 
后 ， 过 程 Process_Inst() 返 回 false。 

接 下 来 ， 这 个 while 循 环 设置 p 为 g，W 为 6 ，i 为 1， 并 调用 
Process, Inst(g, 1, Inst)。Process_Inst() 确 定 出 
Inst (g) [1] 是 “p:=h”"， 且 h 是 一 个 过 程 常数 ， 于 是 设置 PVVs 
二 {p} 和 PVVals(p)={h}， 并 返回 true。 因 此 
Build Call Graph with, PVVs () 中 的 变量 more 被 置 成 true。 

接着 ，i 被 置 成 2 ， 并 调用 过 程 Process_Inst (g, 2, Inst). 
它 调用 Process_cal1l (g, 2, p) ， 此 过 程 设置 PVVs = {p} 和 
PVCalls- {<g, 2, p>} ， 并 返回 false。 

接着 ，i 被 置 成 3， 过 程 Process_Inst (g, 3, Inst) 被 调用 。 它 
接着 调用 Process_Call (g, 3, j) ， 导 致 N= (£, g, j}、E= {<f, 1, 
g>. «g, 3, j>}、W= (j HilPVVals (a) = {i }， 并 返回 true。 

接着 ，p 被 置 成 j] ,Ww 被 置 成 8 ,i 被 置 成 1， 然 后 调用 
Process_Inst(j, 1, Inst), © # — # W H 
Process_Call(j,1,a). Process_Call()iRH@PVVs=({p, 
a} #lPvcall = {<g, 2, p>, <j, 1, a>} ， 并 返回 false。 

现在 W 为 空 ， 因 此 主 例 程 进入 图 19-5 用 星 号 标志 的 内 层 repeat 
循环 。 因 为 不 满足 内 层 for 循 环 内 的 条 件 ， 因 此 主 例 程 进入 repeat 
循环 下 面 的 这 个 for 循 环 ， 这 个 循环 设置 N= {f, g, j, h, i}, E= 
{<f, 1, g>, <g, 3, j>、<g, 2, h>, <j, 1, i>}, W= {h, i}. 

因为 more=true， 故 重复 主 循环 ， 这 一 次 遗留 N 为 原样 ， 
设置 E= {<f, 1, g>, <g, 3, j>, «g, 2, h>, <j, 1, i», <h, 1, 
i», «i, 1, g>}， 并 设置 W= 8g 。 数 据 结构 没有 进一步 改变 ， 于 
是 得 到 图 19-9 所 示 的 调用 图 。 








procedure f( ) 
begin 

call g( ) 
end 


procedure g( ) 
begin 
p: Procedure 
P := h 
call p( ) 
call j(i) 


end 
procedure h( ) 
begin 

call i( ) 
end 
procedure i( ) 
begin 

call g( ) 
end 
procedure j(a) 

a: Procedure 
begin 

call a( ) 
end 


图 19-8 一 个 含 过 程 值 变 量 的 
程序 框架 示例 


图 19-9 图 19-8 中 所 示 含 过 程 值 
变量 的 程序 框架 的 调用 图 
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当然 ， 对 于 那 种 在 运行 时 创建 新 结 点 的 程序 ， 不 可 能 构造 它 的 完整 的 静态 调用 图 。 
19.2 过 程 间 数 据 流 分 析 


过 程 间 数据 流 分 析 涉 及 的 问题 是 ， 确 定 程 序 是 如 何在 其 调用 图 级 别管 理 数据 的 保守 然而 有 
用 的 近似 信息 。 这 些 信息 中 最 有 用 的 一 般 包括 : (1) 哪些 变量 可 能 因为 过 程 调用 的 副作用 而 被 
修改 ; 以 及 (2) 当 在 一 个 特定 点 调用 被 调 过 程 时 ， 它 的 哪些 参数 具有 常数 值 。 知 道 了 副作用 的 
可 能 范围 ， 只 要 避免 那些 可 能 受 被 调用 过 程 影响 的 变量 ， 我 们 就 能 自由 地 优化 此 调用 周围 的 代 
码 。 知 道 了 一 个 给 定 调用 的 一 个 或 多 个 参数 具有 特定 的 党 数值， 我 们 就 能 判别 出 在 那个 调用 点 
克隆 调用 过 程 的 过 程 体 ， 以 及 根据 参数 的 常数 值 对 它 进行 优化 是 否 有 用 。 这 些 信息 也 可 能 有 助 
于 判定 与 过 程 集成 有 关 的 问题 (参见 15.2 节 )。 

当然 ， 与 过 程 内 分 析 一 样 ， 别 名 也 会 使 过 程 间 分 析 复 杂 化 。 我 们 在 19.4 节 讨论 别名 计算 ， 
并 讨论 如 何 将 其 结果 集成 到 忽略 别名 的 过 程 间 数据 流 分 析 中 。 

19.2.1 流 不 敏感 副作用 分 析 . 

如 前 面 提 到 的 ， 过 程 间 副 作用 分 析 的 目的 是 ， 对 于 每 一 个 调用 点 ， 判 别 在 那 一 点 调用 的 过 
程 可 能 具有 的 副作用 的 安全 近似 信息 。 这 种 近似 信息 中 包含 有 在 那 一 点 被 调 过 程 的 所 有 副作用 
信息 。 

我 们 用 4 个 从 指令 映射 到 变量 集合 的 函数 来 刻画 副作用 ， 用 < 过 程 名 ， 指 令 编号 > 的 偶 对 来 
表示 指令 以 及 调用 点 。 这 些 函 数 是 : 

DEF, MOD, REF, USE: Procedure* integer > set of Var 


具体 如 下 : 

DEF (p, 站 = 过程 p 的 第 i 条 指令 一 定 定 值 的 ( 即 肯定 会 赋值 的 ) 变 量 集 合 。 

MOD (p, i)= 过程 p 的 第 i 条 指令 可 能 修改 的 ( 即 可 能 赋值 的 ) 变 量 集合 。 

REF (p, 让 = 过 程 p 的 第 条 指令 可 能 引用 的 ( 即 可 能 获取 其 值 的 ) 变 量 集合 。 

USE (p, i)= 过 程 p 的 第 i 条 指令 在 被 该 指令 重新 定 值 之 前 可 能 引用 的 ( 即 可 能 获取 其 值 的 ) 变 

BRA. 

这 些 函 数 对 于 那些 不 涉及 调用 的 指令 ， 只 要 忽略 别名 就 很 容易 计算 。 有 关 忽 略 别名 的 问题 推迟 
到 19.4 节 再 讨论 。 为 了 表示 这 些 忽 略 了 别名 的 集合 ， 我 们 在 集合 的 名 字 之 前 加 上 前 缀 乙 ， 即 ， 
忽略 别名 的 MOD 是 PDMOD。 例 如 DDEFUp, i)， 对 于 赋值 指令 vexp， 它 是 {v}， 对 于 谓词 pred， 
它 是 5 ， 其 中 假定 这 个 表达 式 和 谓词 都 不 合 调 用 。 类 似 地 ， 此 赋值 指令 的 DREF(p, 让 是 在 exp 中 
出 现 的 变量 集合 ， 对 于 谓词 pred， 它 是 在 pred 中 出 现 的 变量 集合 。 

作为 一 个 例子 ， 我 们 考虑 关于 DMOD 的 计算 ， 所 使 用 的 方法 基于 Cooper 和 Kennedy 的 工作 
(参见 19.10 节 的 引文 )。 

在 整个 这 一 节 中 ， 我 们 都 使 用 图 19-10 中 的 程序 作为 例子 。 — áo: 
图 19-11 中 给 出 。 注 意 该 程序 有 3 个 不 同 的 jJ 一 一 main O 中 的 全 局 变量 、g O 的 局 部 变量 和 nm () 
的 形 参 ， 在 此 以 后 我 们 分 别 将 它们 记 为 了 3,、j。 和 j;。 为 了 允许 完全 通用 的 变量 和 参数 命名 ， 我 
们 本 来 需 标 识 出 每 一 个 变量 所 嵌 套 的 过 程序 列 , 例如 , 我 们 可 以 记 全 局 变量 j 为 <j，[main] >， 
g () 的 局 部 变量 j 为 <j, [main,g] >，m() 的 参数 j 为 <j, (main, g, n, m]». 
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procedure main( ) 
global i, j. e 
procedure f(x) 
begin 
i:=2 
j i= gCi,x) 
if x = 0 then 


procedure g(a,b) 
local j 
procedure n(k,1) 
procedure m(w,y,j) 
begin 
j := n(w,i) 
return y + j 
end Il m 
begin 
k :=j+1 


y:=y-2 
return k + m(i,i,k) 
end li n 
begin 
if a » 1 then 


return a * b * n(b,b) 
end llg | 
procedure h(c,d) 
begin 
e := e/g(1,d) 
return e 
end il h 
begin 
call f(i) 
end 1| main 


图 19-10 本 节 所 有 讨论 都 使 用 的 一 个 例子 


我 们 首先 给 出 如 下 定义 : 

1. LMOD(p, 让 是 可 能 因 过 程 p 的 第 i 条 指令 的 执行 而 被 局 部 修改 的 变量 集合 (不 包括 出 现在 
该 指令 中 的 过 程 调用 的 副作用 )。 

2. IMOD(p) 是 可 能 因 过 程 p 的 执行 (但 不 执行 p 中 的 任何 调用 ) 而 被 修改 的 变量 集合 。 

3. IMOD* (p) 是 可 能 因 过 程 p 的 执行 而 被 直接 修改 的 、 或 作为 传 地 址 参数 传 给 其 他 过 程 后 
过 程 调用 副作用 而 被 修改 的 变量 集合 。 

4. GMOD(p) 是 可 能 被 过 程 p 的 调用 修改 的 所 有 变量 的 集合 。 

5. RMOD(p) 是 可 能 因 过 程 p 的 调用 副作用 而 被 修改 的 p 的 形式 参数 集合 。 

6. Nonlocals(p) 是 过 程 p 中 可 见 的 非 局 部 于 它 的 变量 集合 。 

7. Formals(p) 是 过 程 p 的 形式 参数 集合 。 

8. numinsts(p) 是 过 程 p 的 指令 条 数 。 
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main . 
main 





m 
a) b) 


图 19-11 图 19-10 中 程序 的 a) MARE Ab) 它 的 调用 


9. callsites(p) 是 使 得 过 程 p 中 第 i 条 指令 调用 某 个 过 程 的 整数 组 成 的 集合 。 

10. callset(p, 站 是 过 程 p 的 第 ;条 指令 调用 的 过 程 集合 。。 

11. nested(p) 是 静态 幅 套 在 过 程 p 内 的 过 程 集合 。 

12. b, sO 是 一 个 函数 ， 它 将 过 程 q 的 形式 参数 映射 到 过 程 p 的 第 ;条 指令 之 处 与 它们 相对 应 
的 形式 参数 ， 假 定 此 处 含有 对 gq 的 一 个 调用 。 全 局 于 p 和 gq 的 变量 也 由 p 向 gq 传送 。 

13. Inst0 是 一 个 函数 ， 对 于 过 程 p， 它 按 构 成 p 的 指令 的 顺序 产生 由 这 些 指令 组 成 的 数组 ， 
BpInst(p)[1..numinsts (p)]. 

现在 DMOD(p, 让 可 以 计算 为 LMOD(p, i) (对 于 任意 指令 不 难 计算 它 ) 与 这 样 一 个 集合 的 并 
集 ， 这 个 集合 由 过 程 p 的 第 i 条 指令 调用 的 所 有 过 程 q 的 广义 修改 集合 GMODO 的 并 集 经 b,, , OÑ 
数 ( 它 映射 9 的 形 参 到 p 的 对 应 形 参 ) 过 滤 后 而 形成 ， 即 

DMOD(p,i-LMOD(p,i)U |] bpiq(GMOD(q)) 

qecallset(p,i) 


GMOD(p) 可 以 计算 为 p 中 所 有 调用 点 的 GMODO 值 (限制 为 非 局 部 变量 ) 的 并 集 与 MOD: (p) 的 
并 集 ， 即 
GMOD(p) = IMOD*(p)U U L]  GMOD(a) n Nonlocals(q) 
1<i<numinsts( p) qecallset( p,i) 


IMOD' (p) 是 IMOD(p) 与 这 样 一 个 集合 的 并 集 ， 这 个 集合 是 由 p 调 用 的 所 有 过 程 q 的 所 有 
RMOD(9) 值 经 b,,; ,0 函数 过 滤 后 的 并 集 ， 即 


IMOD*(p-IMOD(p)u | U bpia(RMOD(g)) 


iecallsites( p) qecallset(p,i) 
En, IMOD(p), Bp 


O 注意 ， 在 我 们 的 中 间 语 言 HR、MIR 和 LIR 中 ， 一 条 指令 至 多 调用 一 个 过 程 。 但 我 们 允许 每 条 指令 有 多 个 调 
用 ， 以 说 明 如 何 包容 这 种 情况 。 


620 
2 
622 
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IMOD(p) = U LMOD(p, i) 
1<i<numinsts(p) 

注意 ，IMOD 的 计算 很 容易 ， 因 此 有 效 地 计算 DMOD 简 化 为 有 效 地 计算 RMOD 和 GMOD。 

为 了 计算 RMOD， 我 们 使 用 一 个 称 为 结合 图 (binding graph) 的 数据 结构 。 尽 管 可 以 通过 
标准 的 过 程 间 数据 流 分 析 来 计算 RMOD， 但 这 里 介绍 的 方法 更 有 效 。 程 序 P 的 结合 图 是 B=<N。， 
Es>。 ， 其 中 Ns 中 的 结 点 表示 P 的 形式 参数 ，E。 中 的 边 表示 调用 过 程 的 形式 参数 与 被 调用 过 程 的 
参数 结合 。 如 果 在 p 中 存在 茜 个 调用 点 调用 了 q， 且 它 导 致 p 的 形 参 x 与 9 的 形 参 y 结 合 ， 则 在 Es 中 
存在 一 条 边 x=y 一 一 或 以 传递 方式 通过 若干 次 调用 ， 导 致 x 与 某 个 过 程 ? 的 形式 参数 z 结 合 ， 则 Es 
中 也 存在 着 一 条 边 x oz. ER, 只 有 用 一 个 过 程 的 形 参 作为 被 调 过 程 的 实 参 才 会 在 Ee 中 生成 边 。 

计算 IMODO 的 ICAN 例 程 在 图 19-12 中 给 出 。 对 于 我 们 的 示例 程序 ， 表 19-1 给 出 了 Nonlocals 
和 IMOD 的 值 。 


IMOD: Procedure —> set of Var 


procedure Compute IMOD(p,P) 
p: in Procedure 
P: in set of Procedure 
begin 
V := Ø: set of Var 


i: integer 
q: Procedure 
|| apply data-flow equations to compute IMOD 
for i := 1 to numinsts(p) do 
V u= LMOD(p,i) 
od 


IMOD(p) := V 
end || Compute. IMOD 





图 19-12 计算 程序 P 的 IMODO 的 ICAN 算 法 
表 19-1 图 19-10 中 程序 的 Non/focals () 和 /MOD () 的 值 


Nonlocals(main) =Ø . IMOD(main) =Ø 
Nonlocals(£) = {e,i,j,} IMOD(t) = {i,j} 
Nonlocals(g) = (e,4,4;) IMOD(g) = {a,b} 
Nonlocals(n) = {a,b,e,i,j2} IMOD(n) = (k,1] 
Nonlocals(m) = {a,b,e,i,k,1} IMOD(n) = {j3} 
Nonlocals(h) = {e,i,j,} IMOD(h) = (e) 





图 19-13 中 的 ICAN 例 程 Buil9_Binding_Graph() 构 造 程序 P 的 结合 图 。nparams(p) 的 
值 是 p 的 形式 参数 个 数 ，params(p, 让) 是 p 的 第 i 个 形式 参数 。passed(p, i, q, x, y)jtrue, AUR 
过 程 p 的 第 ;条 指令 调用 过 程 g 并 且 使 得 p 的 形 参 x 与 9 的 形 参 y 结 合 ， 否 则 为 false。 

为 了 建立 图 19-10 中 程序 的 结合 图 ， 我 们 一 开始 设置 P= (main, f, g, h, n, m}, NÎ, E 
= ，oldE== 8 。 假 设 首先 处 理 的 是 过 程 main () ， 我 们 在 第 1 行 遇 到 了 一 个 调用 ， 因 此 有 ?= 
main. i=1flq=f, 于 是 调用 Bind_Pairs (main, 1, E) ， 它 没有 改变 N 和 E。 main () ys 
有 遇 到 其 他 调用 ， 因 此 继续 处 理 下 一 个 过 程 E() ， 它 将 x 和 b 加 到 N 中 ， 边 x 一 b 加 到 E 中 ， 得 到 


N= (x, b) E = (x-b) 


O 这 是 希腊 大 写字 母 B， 不 是 罗马 字符 B。 
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procedure Build Binding Graph(P,N,E) 
P: in set of Procedure 
N: out set of Var 
E: out set of (Var x Var) 
begin 
p, q: Procedure 
i, m, n: integer 
e, f: Var x Var 
oldE: set of (Var x Var) 
|| construct graph that models passing parameters 
|| as parameters to other routines 
N := E := oldE := Ø 
repeat 
oldE :- E 
for each p € P do 
for i := 1 to numinsts(p) do 
for each q € callset(p,i) do 
Bind Pairs(p,i,q,N,E) 
od 


od 
od 
until E - oldE 
repeat 
oldE :- E 
for each e € E do 
for each f € E (f * e) do 
if e@2 = fei & e01 + fe2 then 
E u= (e01-f02) 
fi 
od 
od 


until E - oldE 
end || Build Binding Graph 


procedure Bind Pairs(p,i,q,N,E) 
p. q: in Procedure 


i: in integer 
N: inout set of Var 
E: inout set of (Var x Var) 
begin 
m, n: integer 
for m := 1 to nparams(p) do 
for n := 1 to nparams(q) do 
if passed(p,i,q,param(p,m),param(q,n)) then 
N u= {param(p,m) ,param(q,n)} 
E u= (param(p,m) param(q,n)) 
fi 
od 
od 
end |! Bind Pairs 


图 19-13 ”构造 程序 P 的 结合 图 B 的 算法 
接 下 来 我 们 处 理 g () ， 它 将 a、c、d、k 和 1 加 入 到 N， 并 加 入 若干 条 边 到 E， 得 到 如 下 结果 : 
N= (x,b,a,c,d,k, 1} E = (x-^b, ac, bod, b-k, b>1} 


处 理 h O 没有 改变 N， 但 改变 了 E， 结 果 如 下 : 


N = {x, b, a, c, d, k, 1) 
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E = (x-^b, a-c, bed, b-^k, b-^1, d^b) 


继续 这 一 处 理 过 程 直 到 Build_Binding_Graph () 的 最 后 一 个 顶层 循环 将 那些 传递 边 加 入 到 
Ep, E5185] 
N = (x,b,a,c,d,k,1,v,x, j3} 


E = (xb, ac, bd, bk, b—1, db, d-»k, d-1, k>j;, 
d—>j3, b>j3, wok, wj3, xd, xk, xj, x1) 


和 图 19-14 中 的 图 形 表示 。 注 意 ， 如 这 个 例子 所 示 ， 结 合 图 通常 并 不 是 连 在 一 起 的 ， 并 且 仅 当 
程序 是 递归 的 才 含 有 环 路 。 





图 19-14 图 19-10 中 程序 的 结合 图 


下 面 ， 我 们 根据 程序 的 结合 图 来 定义 RMOD。 从 Ns 中 的 结 点 映射 到 布尔 值 的 函数 RBMOD 
是 : 如 果 x 因 为 调用 某 个 过 程 的 副作用 而 被 修改 ，RBMOD(x) 为 true ， 否 则 为 false。 计 算 
RBMOD 可 通过 在 结合 图 上 初始 化 所 有 x 的 RBMOD(x) 为 false ， 解 如 下 数据 流 方程 来 完成 。 


RBMOD(x) = 3p € P (x € Formals(p)NIMOD(p)v V RBMOD(y) 


x-~PycEg 


fikComput RBMOD(P, N, E) 给 出 在 图 19-15 中 ， 其 中 ，P 是 调用 图 中 的 过 程 集合 ，N 和 分 别 
是 结合 图 的 结 点 集合 和 边 集合 。 最 外 野 的 循环 应 当 按 后 序 执 行 ， 即 ， 结 合 图 中 每 一 个 结 点 的 处 
理应 尽 可 能 地 在 其 后 继 结 点 已 处 理 之 后 。 


RBMOD: Var — boolean 


procedure Compute. RBMOD(P,N,E) 

P: in set of Procedure 

N: in set of Var 

E: in set of (Var x Var) 
begin 

p: Procedure 

n: Var 

e: Var x Var 

oldRBMOD: Var —> boolean 


RBMOD := ø 


repeat 
oldRBMOD := RBMOD 
for each n € N do 
RBMOD(n) := 3p € P (n € Formals(p) n IMOD(p)) 
for each e € E (e@i = n) do 
RBMOD(n) V- RBMOD(e@2) 
od 
od 
until RBMOD - oldRBMUD 
end || Compute. RBMOD 


图 19-15 根据 结合 图 B 计 算 RBMODO 的 算法 
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这 样 ， 过 程 p 的 RMOD(p) 就 简单 地 是 使 得 RBMOD(x) 为 Lrue 的 p 的 形 参 x 组 成 的 集合 ， 即 

RMOD(p) = (x1x€ Formals(p) & RBMOD(x)) 

作为 计算 RBMOD 的 一 个 例子 ， 我 们 用 图 19-10 程 序 例子 来 计算 它 ， 这 个 程序 的 结合 图 是 图 
19-14。 为 了 计算 RMOD， 我 们 调用 Compute_RBMOD(P, N, E), rp 


P = (main,f,g,h,n,m) — 

N = {x,b,a,c,d,k,l,w,z, j} 

E = (xb, ac, bod, b>k, b—1, db, dk, d>1, k>j;, 
dj,, b->j3, wk, w>j3, xd, xk, x>j3, x1} 


这 个 算法 初始 结合 图 中 每 一 个 结 点 的 RBMODO 如 表 19-2 所 示 ， 然 后 迭代 地 计算 每 一 个 结 点 
的 RBMODO 直 到 它 收敛 为 止 ” ， 由 此 得 到 表 19-3 所 示 的 值 。 


表 19-2 对 于 图 19-10 中 例子 的 结合 图 中 的 结 


点 ， 通 过 计算 RBMOD () 方 程 中 的 存量 表达 式 表 19-3 图 19-10 中 例子 的 结合 图 结 点 
而 得 到 的 初始 值 的 RBMOD () 最 终 值 
RBMOD(x) = false RBMOD(x) = false v RBMOD(b) v RBMOD(j;3) = true 
RBMOD(b) = true RBMOD(b) = true 
RBMOD(a) = true RBMOD(a) = true 
RBMOD(c) = false RBMOD(c) = false 
RBMOD(d) = false RBMOD(d) = false v RBMOD(b) = true 
RBMOD(k) = true RBMOD(k) = true 
RBMOD(1) = false RBMOD(1) = false 
RBMOD(w) = false RBMOD(w) = false v RBMOD(j3) = true 
RBMOD(y) = true Y RBMOD(y) = true 
RBMOD(j3) = true RBMOD(j;) = true 
于 是 ，RMODO 如 表 19-4 所 示 。 | 
回忆 IMOD* 0 的 定义 为 表 19-4 ”图 19-10 中 例子 的 RMOD () 值 
RMOD(main) = 0 
+ = ` 
IMOD*(p) = IMOD(p)U U | bp,i.g(RMOD(q)) RMODG = {x} 
qecaliset( p,i) RMOD(g) = {a,b} 
所 以 ， 正 如 图 19-16 所 示 那 样 ， 它 很 容易 计算 (注意 ， RMOD) =t) 


RMOD (m) = {w,y,j3} 


在 这 个 算法 中 ， 我 们 用 b (p, i,q r)XEmb, uo), 并 RMODQ) = {a} 


且 对 于 我 们 的 例子 ， 其 值 如 表 19-5 所 示 。 


为 了 由 1MOD+ 有 效 地 计算 GMOD， 我 们 用 图 19-17 和 图 19-18 中 给 出 的 算法 ， 它们 处 理 的 是 


调用 图 ( 即 Edges 是 调用 图 的 边 集 合 ， 而 不 是 结合 图 的 边 集 合 )。 

给 定 具有 过 程 P、 边 集合 Edges 和 主 例 程 + 的 一 个 调用 图 ， 图 19-17 中 的 I1CAN 例 程 
Stratify() 和 Set_Levels () 构造 一 个 将 过 程 映 射 到 它们 的 嵌 套 层次 的 函数 eve1 () 。 对 
于 程序 的 每 一 个 0< i < aepth 的 妊 套 层 ，stratify() 还 计算 具有 结 点 N[i] 、 根 R[i]8、 边 
E[i] 的 一 个 子 图 ， 基 中 一 个 例 程 属于 NI[i] ， 如 果 它 调用 的 所 有 例 程 的 伐 套 层次 都 大 于 或 等 于 
i。 例 程 called (p) 返 回 过 程 p 调 用 的 所 有 过 程 的 集合 。 


日 注意 ，RBMOD 的 数据 流 方程 定义 在 false C true 的 两 元 素 格 上 。 
O ER. 子 图 可 能 有 多 个 根 ， 例如， 当主 例 程 (在 第 0 层 ) 调用 了 两 个 例 程 (在 第 1 层 ) 时 。 
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IMODPLUS: Procedure —> set of Var 


procedure Compute, IMODPLUS (P) 
P: in set of Procedure 
begin 
P. q: Procedure 
i: integer 
IMODPLUS := ø 
for each p € P do 
IMODPLUS(p) := IMOD(p) 
for each i € callsites(p) do 
for each q € callset(p,i) do 
IMODPLUS(p) v= b(p,i,q,RMOD(q)) 
od 
od 
od 
end || Compute. IMODPLUS 


图 19-16 tHEMOD" 0 的 ICAN 算 法 
表 19-5 ”图 19-10 中 例子 的 /MOD'* 值 


IMOD* (nain) = IMOD(nain) U bnain,1,f(RMOD(f)) 
-4)Uti213! 

IMOD*(t) = IMOD(f) U bg 2, g(RMOD(g)) = {i,j} U {i,x} 
={i,j,.x} 

IMOD*(g | -IMOD(g) U bg, 4,n(RMOD(a)) U bg, c, n(RMOD(n)) 
= {a,b} U {b} U {b} = {a,b} 

IMOD*() | -IMOD(n) V bn, s, n(RMOD(n)) = {k,y} 

IMOD*(m | 2IMOD() Ubn,1,n(RMOD()! = {j3} U {u} 
={j3, w} 

IMOD'(n =IMOD(h) U by ,g(RMOD(g)) = {e} U (d) = (ed) 



























N, R: array [::] of set of Procedure 
E: array Í::] of set of (Procedure x Procedure) 
Level := Ø: Procedure — integer 

depth, NextDfn: integer 

Dfn: Procedure —> integer 

LowLink: Procedure —> integer 

GMOD, IMODPLUS, Nonlocals: Procedure — set of Var 
Stack: sequence of Procedure 


procedure Stratify(P,Edges,r) returns integer 

P: in set of Procedure 
. Edges: in set of (Procedure x Procedure) 

r: in Procedure 

begin 
i, j, depth: integer 
P, q: Procedure 
WL := P: set of Procedure 
Level(r) := 0 

Set Levels(r) 


图 19-17 计算 调用 图 和 子 图 (由 结 点 Nf] 、 根 Ri] 和 边 E1] 组 成 ) 的 柑 套 屋 次 Level () 的 算法 。 其 中 ， 子 图 不 


包括 调用 了 较 低 供 套 层 例 程 的 那些 例 程 。stratify() 用 Set_Levels_to 计 算 每 一 个 过 程 的 伐 套 层次 





过 程 间 分 折 与 优化 


depth := 0 

for i := 0 to depth do 
N[i] := d 
for j := 0 to i-1 do 


WL u= {p € P where Level(p) = j} 


od 
for j := i to depth do 


for each p € P (Level(p) = j) do 
if called(p) n WL = @ then 


N[i] v= (p) 
fi 
od 


WL v= (p € P where Level(p) = j) 


od 
E[i] := Edges n (N[i] x Nil) 
R[i] := {p € N[i] where Level(p) = i} 


od 
return depth 
end 11 Stratify 


procedure Set. Levels(r) 
r: in Procedure 
begin 
p: Procedure 


for each p € nested(r) do 
Level(p) := Level(r) + 1 
if Level(p) > depth then 


depth :- Level(p) 
fi 
Set Levels(p) 
od 


end 11 Set. Levels 


图 19-17 (#8) 


procedure Compute GMOD( ) 


begin 
i: integer 
n, r: Procedure 


for i :- depth by -1 to 0 do 





for each r € R[i] do 


NextDfn :- 
for each n 

Dfn(n) : 
od 


Stack := [] 
GMOD_Search(i,r) 


od 
od 


end || Compute, GMOD 


0 


N[i] do 
0 


procedure GMOD_Search(i,p) 


i: in integer 

p: in Procedure 
begin 

j: integer 


图 19-18 利用 Tarjan 的 算法 版 本 由 IMOD* 0 有 效 地 计算 GMODO 的 算法 
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u: Procedure 
e: Procedure x Procedure 
LowLink(p) := Dfn(p) := NextDfn += 1 
GMOD(p) :- IMODPLUS(p) 
Stack e- [p] 
for each e € Eli] (e@1 = p) do 
if Dfn[ee2] = 0 then 
GM0D_Search(i,e62) 
LowLink(p) := min(LowLink(p),LowLink(e02)) 
fi 


if Dfn(e@2) < Dfn(p) & 3j € integer (Stackij-e02) then 
LowLink(p) := min(Dfn(e02),LowLink(p)) 


else 
GMOD(p) v= GMOD(e@2) n Nonlocals(e02) 
fi 


LowLink(p) = Dfn(p) then 

repeat 
u := Stacki-1 
Stack e- -1 
GMOD(u) u= GMOD(p) n Nonlocals(p) 

until u =p 

fi 
end |1 GMOD. Search 





图 19-18 (#8) 
对 我 们 的 例 程序 应 用 Stratify () ， 得 到 depth=3 和 表 19-6 中 的 数据 结构 。 
表 19-6 ”图 19-10 例 程序 的 Level() 、N[] 、R[] 和 E[] 之 值 


Level(main) = 0 
Level(f) = Level(g) = Level(h) = 1 


Level(n) = 2 

Level(m) = 3 

N[0] = {main,f,g,h,n,m} RÍO] = {main} 
N[1] = {f,g,h,n,m} R[1] = {f} 
N[2] = {n,m} R[2] = (n) 
N[3] = (n) R[3] = {m} 


ELO] = {main>f, f-»g, g—h, gn, h->g, n>m, mn) 
E[1] = (£g, gh, g—n, hg, n>m, mn) 
E[2] = (nn, mn) 


E[3] = $ 





CGMOD 的 计算 方法 是 Tarjan 计 算 强 连通 分 量 方法 的 修改 版 本 〈 参 见 7.4 节 )。 其 思想 是 ， 对 
于 一 个 强 连通 分 量 一 一 即 相互 递归 的 过 程 组 成 的 集合 一 一 它 的 根 结 点 的 GWMOD 表 示 在 此 分 量 中 
的 结 点 ( 即 过 程 ) 中 可 能 出 现 的 所 有 的 副作用 ， 因 此 它 的 每 一 个 结 点 的 GMOD 是 该 结 点 的 
IMOD* 并 上 根 结 点 的 GMOD 与 此 过 程 中 的 非 局 部 变量 集合 的 交集 。 这 个 算法 的 要 点 是 ， 图 19-18 
中 带 星 号 的 那个 测试 为 true， 当 且 仅 当 p 是 调用 图 的 强 连通 分 量 的 根 。 

作为 计算 GMOD 的 一 个 例子 ， 我 们 将 这 个 算法 应 用 于 图 19-10 的 程序 。 我 们 调用 
Compute GMOD (main), ， 它 执行 深度 为 主 查找 并 识别 出 强 连 通 分 量 ， 同 时 初始 CMOD 的 值 如 
表 19-7 所 示 。 然 后 ， 它 按 硕 序 累 加 GMOD 的 值 ， 如 表 19-8 所 示 。 
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3119-7. 我 们 的 例 程序 的 GMOD () 的 初 值 319-8 ”我们 的 例 程序 的 GMOD () 的 终 值 


GMOD(main) = IMOD* (nain)-[i, ji) GMOD@)  -(jsw 
GMOD(») ={k,y} 
GMOD(t) =IMOD*(£)={i,j,,x} GMODQ) ={d,e} 
GMOD(g -=IMOD*(g)={a,b} GMOD(g) = {a,b} U(GMOD(h) n Nonlocals(h)) 
= {a,b} U (e]-(a, b, e) 
GMOD() == IMOD*(n)={k, y} GMOD(f) = = {i j1,.x) U(GMOD(g) n Nonlocals(g)) 


= 位 ,ji x) U {e}={e,i,j1 x) 
GMOD (main) = {i, j1} U (GMOD(t) n Nonlocals(£)) 
GMODà) = IMOD*(h)={4,¢} = {2,5 U (el=(e,3, 51) 


GMOD(n) = IMOD? (m)=(353,) 


最 后 ， 我 们 应 用 DMOD 的 定义 方程 得 到 表 19-9 所 示 的 值 。 
表 19-9 我 们 的 例 程序 的 DMOD () 的 值 


DMOD(main, 1) = LMOD (main, 1) = Ø 

DMOD(t,1 . -LMOD(t,1) = (i) 

DMOD(,2)  -LMOD(,2)U be, 2, (GMOD(g)) 
= {jı} U {e,i,x} = (e,i,5,,x} 

DMOD¢E, 3) -LMOD(t,3) = ø 

DMOD¢E, 4) = LMOD(t, 4) = (ji 

DMOD(f, 5) —-LMOD(t,5)-9 

DMODX(t, 6) = LMOD(f, 6) = 0 

DMOD(g1)  -LMOD(g1-6$ 

DMOD(g,2) =LMOD(g, 2) = (al 


DMOD gg, 3) = LMOD gg, 3) = Ø 

DMODx(g, 4) = LMOD(g, 4)U bg ,4,n(GMOD(h)) 
= (b) U {b,e} = (b,o) 

DMOD(g, 5) = LMOD gg, 5) = {a} 

DMODg, 6) = LMOD(g, 6) = {a} 

DMOD(h, 1) = LMOD(h, 1) U by, ,g(CMOD(g) 
= {e} U {b} = (b,e) 


DMOD(h,2)  =LMOD(h,2)=@ 
DMOD@,1) =LMODQ, 1) = {k} 
DMOD(n,2) = LMOD(a, 2) = (yl 
DMOD(n3) =LMOD(a, 3) - 0 
DMOD@,1)  —-LMOD(,1) = (jj) 
DMOD(m,2)  -LMOD(2)- 0 


这 种 计算 流 不 敏感 副作用 方法 的 计算 复杂 度 是 O(e . nd- n’), HH, nieg PIE VAR BS 
中 结 点 的 个 数 和 边 的 条 数 ，d 是 程序 中 词法 能 套 的 深度 。 通 过 将 Compute_GMOD () PHYS wk 
代 合 并 为 对 调用 图 的 一 遍 迭 代 ， 可 以 去 掉 因 子 d (参见 19.11 节 练习 19.2)。 

类 似 的 分 解 也 可 用 于 计算 其 他 的 流 不 敏感 可 能 概要 函数 。 
19.2.2 流 敏感 副作用 : 程序 概要 图 

Myers [Myer81] 证 明了 ， 只 要 考虑 别名 ， 计 算 流 敏感 副作用 就 是 co-NP 完 全 的 。 他 也 引入 
了 一 个 叫做 程序 超 图 (supergraph) 的 模型 ， 这 种 模型 用 于 支持 流 敏感 副作用 的 判定 。 

Callahan [Call88] 给 出 了 一 种 计算 流 敏感 问题 近似 解 的 实际 方法 ， 这 种 方法 基于 所 谓 的 程 
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序 概要 图 ， 它 为 图 中 由 调用 图 和 参数 传递 样式 而 得 出 的 结 点 添加 了 对 应 过 程 内 的 流 敏 感 作用 信 
息 。 这 种 图 的 大 小 适中 ， 其 复杂 度 在 调用 图 和 Myers 的 超 图 之 间 。 

这 一 节 概 要 性 地 介绍 程序 概要 图 ， 以 及 它 能 够 计算 的 流 敏 感 副作用 信息 。 我 们 假定 参数 传 
递 规则 是 传 地址 。 假 设 我 们 有 一 个 由 过 程 集 合 P 构 成 的 程序 ， 于 是 ，P 的 程序 概要 图 (program 
summary graph) 的 组 成 是 : 每 一 个 过 程 的 每 个 形 参 有 两 个 结 点 ， 叫 做 入 口 (entry) 结 点 和 出 
v (exit) 结 点 ; 每 一 个 调用 点 的 每 个 实 参 有 两 个 结 点 ， 叫 做 调用 (call) 结 点 和 返回 (return) 
结 点 ; 以 及 连接 所 有 调用 结 点 到 入 口 结 点 ， 出 口 结 点 到 返回 结 点 ， 某 些 入 口 和 返回 结 点 到 调用 
和 出 口 结 点 的 边 。 

更 详细 地 ， 令 p 和 g 是 两 个 过 程 ， 过 程 p 中 的 指令 i 调用 过 程 q。 则 gq 的 形 参 是 


param(q,1), ..., param(q, nparams (q) ) 
对 4 的 调用 的 实 参 是 
arg(p,i,1), ..., arg (p, i, nparams (q)) 


对 于 每 一 个 三 元 组 <p, i, arg. i, >， 存在 着 一 个 调用 结 点 cl(p, i, arg(q, i, 门 和 一 个 返回 结 
点 rt(p, i, arg(g, i, 让。 对 于 每 一 个 偶 对 <q, parans(q, >，、 存 在 着 一 个 入 口 结 点 en(g， 
params(q, 门 和 一 个 出 口 结 点 ex(q, params(q, 四 )。 存 在 一 条 从 cl(p, i, arg(q, i, j)flen(a, 
parans(q, 门 的 边 和 另 一 条 从 ex(g, params(q, 由) 到 rt(p, i, arg(g, i, 门 的 边 。 同 时 还 存在 着 如 
下 一 些 边 : 

1. 从 en(p, params(p, j))8lc1(p, i, arg, 月 ) 的 边 ， 如 果 params(P, 妃 的 值 到 达 调 用 点 <p， 
i>，、 并 且 在 那里 与 arg(p, i, HHA; 

2. 从 en(p, params(p, 门 到 ex(p, params(p, 及 ) 的 边 ， 如 果 params(p, DEPRI A ORHEI 
为 params(p, DRAB APM A; 

3. 从 rt i, arg(p, i, ))Bc1@, k, arg(p, k, DDA, MRarg(p, i, 四 在 返回 到 p 时 的 值 作 
为 arg(p, 上 kD 的 值 到 达 调 用 点 <p, k >; 

4. 从 rt(p, i, arg(p, i, ) Slex(p, param(p, 有 )) 的 边 ， 如 果 在 返回 到 p 时 ，arg(p, i, DEEE 
Aparan(p, 及 的 值 到 达 p 的 出 口 。 

我 们 假定 : 实 参 在 调用 点 被 使 用 ， 然 后 被 杀 死 ; 过 程 和 人 口 定 值 所 有 的 形 参 ， 并 且 过 程 返 回 
使 用 所 有 的 参数 。 

作为 一 个 例子 ， 考 虑 图 19-19 的 程序 。 它 的 程序 概要 图 给 出 在 图 19-20 中 ， 下 面 解释 其 中 的 
某 些 边 : 

1. 从 en (f,x) 到 ex (f,x) 有 一 条 边 ， 因 为 x 在 f() 入 口 的 值 可 能 到 达 它 的 出 口 。 

2. 从 en (£,x) 到 cl (£,5,x) 有 一 条 边 ， 因 为 x 在 £() 入 口 的 值 可 能 在 调用 点 <f ,5> 被 传 
递 给 g O 的 形 参 b。 

3. 没有 从 en C£,30 到 cl (f,3,j) 的 边 ， 因 为 x 在 f() 人 口 的 值 在 调用 点 <E, 3> 不 能 传递 
给 g O IE Sb. 

4. 从 cl (h,1,d) 到 en (g,b) 有 一 条 边 ， 因 为 在 调用 点 <h, 1> 对 g O 的 调用 可 能 传递 q 的 
值 给 g 0 的 形 参 b。 

5. 从 ex (g,b) Birt (£,5,x) 有 一 条 边 ， 因 为 b 的 值 在 g O 的 出 口 与 f () 的 形 参 x 结合 。 

已 知 程序 概要 图 ， 我 们 现在 可 以 定义 杀 死 (Kill) PA (Use) 属性 了 。 一 个 变量 v 是 被 杀 
死 的 (Kill(W) 为 true)， 如 果 无 论 控 制 流 怎样 它 都 一 定 会 被 修改 ; 一 个 变量 "是 被 使 用 的 (Use (WA 
true)， 如 果 它 的 使 用 先 于 它 被 杀 死 。 现 在 ， 被 杀 死 的 变量 集合 能 够 用 如 下 数据 流 方程 来 确定 ; 
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procedure f(x) 
begin 


return j 
end Ilf 
procedure g(a,b) 
begin 
if a> 1 then 
a:=b+2 
‘else 
b := h(a,b) 
fi 
return a * b * j 
end Ig 
procedure h(c,d) 
begin 
e := e/g(1,d) 
return e 
end llh 


图 19-19 流 敏感 副作用 计算 的 例 程序 








en(f,x) 
cl(f,3,j) 
c1(f,3,0) 
c1(f,5,1) 
cl(f,5,x) 
en(g,a) en(g,b) 
cl(g,4,a) 
$1640 ———31 
en(h,c) en(h,d) 
| aon 
c1(h,1,d) 
rt(h,1,1) 
p reno 
ex(h,c) ex(h,d) 
rt(g,4,a) | 
poet b) 
ex(g,a) ex(g, J 
rt(f,3,j) 
rt(f,3,0) 
rt(f,5,i) 
rt(f,5,x) 





ex(f,x) 41] 


图 19-20 图 19-19 程 序 的 程序 概要 图 
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false Xx 为 出 口 结 点 
Aa O x 为 入 口 或 返回 结 点 


Kill) = | eio v Kill) x 为 调用 结 点 ，y 和 z 是 对 应 的 返回 和 入 口 结 点 


其 中 ，E 是 程序 概要 图 的 边 集合 。 类 似 的 方程 也 适应 于 UseO 属 性 ， 并 且 此 框架 也 可 以 扩充 到 处 
理 全 局 变量 。Callahan 给 出 了 一 种 效率 较 高 的 计算 这 些 数 据 流 属性 的 算法 ， 它 的 运行 时 间 为 
O(n s)， 其 中 ，n 是 过 程 的 个 数 ，s 是 程序 概要 图 大 小 的 度量 。 


19.2.3 副作用 计算 中 的 其 他 问题 


我 们 一 直 没 有 讨论 实际 程序 中 出 现 的 一 系列 问题 对 副作用 计算 的 影响 ， 如 递归 、 别 名 、 标 
号 变量 、 指 针 、 联 合 、 过程 参 数 ， 以 及 异常 处 理 等 。 过 程 间 别名 在 19.4 节 讨论 。Weihl 
[Weih80] 涉 及 了 这 些 问 题 中 的 某 一 些 ， 而 另 一 些 问 题 则 只 在 已 实现 的 系统 中 有 所 提 及 ， 这 些 系 
统 如 Parafrase [Kuck74] 和 ParaScope [CooH93]. 


19.3 过 程 间 常 数 传播 


过 程 间 常数 传播 (interprocedural constant propagation) 可 以 用 公式 表示 为 位 置 无 关 的 或 位 
置 特殊 的 方法 。 位 置 无 关 (site-independent) 形式 ， 对 于 程序 中 的 每 一 个 过 程 ， 确 定 其 参数 中 
满足 后 面 这 个 条 件 的 一 个 子 集 ， 其 中 每 一 个 参数 在 此 过 程 的 每 个 调用 中 具有 相同 的 常数 值 。 位 
置 特殊 (site-specific) 形式 对 每 一 个 特定 点 调用 的 每 个 特定 过 程 ， 确 定 每 次 调用 此 过 程 时 具有 
相同 常数 值 的 参数 组 成 的 子 集 。 

这 两 种 情形 下 的 分 析 问 题 都 处 在 由 Myers 确 定 的 NP 完全 的 或 是 co-NP 完 全 的 标准 之 内 ， 
此 典型 的 做 法 是 寻找 一 种 代价 不 大 但 也 不 够 精确 的 方法 。 

Callahan 等 人 [CalC86] 介 绍 了 一 种 执行 过 程 间 常数 传播 的 方法 ， 它 既 可 以 是 流 敏感 的 ， 也 
可 以 是 流 不 敏感 的 ， 取 决 于 选择 的 是 他 们 称 为 转移 和 返回 转移 函数 中 的 哪 一 种 函数 。 我 们 的 方 
法 是 从 他 们 的 方法 导出 的 。 为 简单 起 见 ， 我 们 假定 构成 一 个 程序 的 各 个 过 程 的 形式 参数 集合 是 
不 相交 的 。 

对 于 过 程 p 中 用 实 参 表 L 调 用 过 程 q 的 调用 点 i， 转 移 函 数 (jump function) J(p, i, L, x) 映 射 
此 调用 在 那个 调用 点 的 实 参 信息 到 4 的 形 参 x 在 4 的 入 口 的 信息 。 类 似 地 ， 对 于 过 程 p， 返 回转 移 
函数 (return-jump function) R (p, L, x) BE pf EZ XL 关 的 信息 到 通过 p 的 形 参 x 所 返回 的 值 
有 关 的 信息 。 例 如 ， 对 于 图 19-23 所 示 的 过 程 ， 

J(f,1,[i,j],a) = i 

J,1,(,j],5) = j 

R(g, [a,b],a) = 2 
是 调用 点 <£, 1> 和 过 程 g() 可 能 的 转移 函数 值 和 返回 转移 函数 值 (如 我 们 下 面 将 看 到 的 ， 它 们 是 
“经 传递 的 参数 ”转移 函数 和 返回 转移 函数 )。 我 们 进一步 定义 转移 函数 J(p, i, L, x*) 的 支持 
(support)， 记 为 Jsupport(p, i, L, x), BE LIC, i, L, 如 中 所 使 用 的 实 参 的 集合 ;对 于 返回 
转移 函数 也 有 类 似 的 定义 。 于 是 ， 对 于 我 们 的 例子 ， 有 


Jsupport(f,1,[i,j],a) = (i) 
Jeupport(f,1,[i,j]l,b) = {j} 
Rsupport (g,[a,b],a) = Ø 
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只 使 用 向 前 转移 函数 的 过 程 间 常数 传播 算法 给 出 在 图 19-21 中 .。 它 使 用 图 8 - 3 给 出 的 格 ICP， 
我 们 在 图 19-22 中 重新 画 出 了 它 。 如 第 8 章 所 述 ， 其中， T 是 每 一 个 推定 为 常数 值 的 变量 的 初 值 ， 
常数 则 代表 常数 本 身 ， 上 意味 着 一 个 其 值 不 是 常数 的 变量 。 该 算法 使 用 的 过 程 中 有 一 个 新 的 过 
程 ， 即 Eval (J (p, i, L, V), Cval) ， 它 计算 ICP 上 的 J(P, i, L, v) ， 即 ，Jsupport (p, i, L, 
v) 中 的 变量 从 cval ( ) 得 到 它们 的 值 ， 并 且 在 ICP 上 执行 其 运算 。 程 序 设计 语言 中 的 运算 需要 
适当 地 映射 成 ICP 上 的 运算 ， 例 如 ， 
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procedure Intpr Const Prop(P,r,Cval) 
P: in set of Procedure 
r: in Procedure 
Cval: out Var —> ICP 
begin 
WL := {r}: set of Procedure 
p. q: Procedure 
v: Var 
i, j: integer 
prev: ICP 
Pars: Procedure —> set of Var 
ArgList: Procedure x integer x Procedure 
一 > sequence of (Var U Const) 
Eval: Expr x ICP — ICP 
|| construct sets of parameters and lists of arguments 
|| and initialize Cval( ) for each parameter 
for each p € P do 
Pars(p) := Ø 
for i := 1 to nparams(p) do 
Cval(param(p,i)) := T 
Pars(p) v= {param(p,i)} 
od 
for i := 1 to numinsts(p) do 
for each q € callset(p,i) do 
ArgList(p,i,q) := 0 
for j := 1 to nparams(q) do 
ArgList(p,i,q) @= [arg(p,i,j)] 
od 
od 
od 
od 
while WL + Ø do 
p := OWL; WL -= {p} 
for i := 1 to numinsts(p) do 
for each q € callset(p,i) do 
for j := 1 to nparams(q) do 
|| if q( )?s jth parameter can be evaluated using values that 
il are arguments of p( ), evaluate it and update its Cval( ) 
if Jsupport(p,i,ArgList(p,i,q),param(q,j)) € Pars(p) then 
prev := Cval(param(q,j)) 
Cval(param(q,j)) n= Eval(J(p,i, 
ArgList(p,i,q),param(q,j)),Cval) 


图 19-21 位 置 无 关 过 程 间 常数 传播 算法 
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if Cval(param(q,j)) c prev then 
WL v= {q} 
fi 
fi 
od 
od 
od 


od 
end |! Intpr_Const_Prop 





图 19-22 整数 常数 传播 格 ICP 


作为 过 程 间 常 数 传播 的 一 个 例子 ， 考 虑 图 19-23 中 的 程序 。 这 个 程序 可 能 有 的 转移 函数 集 
合 和 它们 的 支持 集合 如 表 19-10 所 示 。 对 于 这 些 转移 函数 的 值 ， 算 法 首先 初始 


Pars(e) = f£ ArgList(e,1,f) = [x,1] 
Pars(f) = {i,j} ArgList(f,1,g) = [i,j] 
Pars(g) = {a,b} ArgList(f,2,g) = [j] 


Cval(i) = Cval(j) = Cval(a) = Cval(b) = T 


procedure e( ) 
begin 
x, c: integer 
c := £(x,1) 
end 
procedure f(i,j) 
begin 
8, t: integer 
s := g(i,j) 


t := gp 
return s + t 


end 
procedure g(a,b) 
begin 
a := 2 
b := b + Ba 
return a 





图 19-23 过 程 间 常 数 传播 之 例 


和 WL = {e}。 然 后 它 从 WL 中 删除 e， 并 处 理 e O 中 的 一 条 指令 。 它 确定 出 Ee callset(e, 1) 
为 true， 因 而 接着 逐一 扫描 f O 的 参数 (i 和 j) 。 它 计算 出 J (e, 1,[], i) = 上 ， 并 存储 这 个 值 
于 cval (i) ， 设 置 WL= {f}。 类 似 的 动作 导致 设置 Cval (j) =1。 接 下 来 ， 这 个 算法 设置 p= 
f 和 i =1， 并 处 理 在 那 一 点 对 g O 的 调用 。 这 导致 设置 Cval (a) = 上 和 Cval (b) =1。 对 于 i 
=2， 我 们 再 次 得 到 cval (a) = 上 和 Cval (b) =1。 最 终结 果 是 
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319-10 图 19-23 中 例 程序 的 可 能 的 转移 函数 和 它们 的 支持 集合 





J(e,1,0],i)-21 Jsupport(e,1,(1,i) =ø 
J(e,1,[] ,j) =1 Jsupport(e,1,[],j) =Ø 
J(f,1,[i,j],a) =i Jsupport(f,1,[i,j]1,a) = {i} 
J(f,1,[i,j],b) =j Jsupport(f,1,[i,j],b) = {j} 
J(f,2,f4,j},a) =j Jsupport(f ,2, [i,j] ,a) = {j} 
J(f,2, [i,j],b) =j Jsupport (f ,2, [i,j],b) = {j} 

Cval(i) = 1 

Cval(j) = 1 

Cval(a) = 1 

Cval(b) = 1 


于 是 ， 在 f 0 的 每 一 个 调用 点 ， 形 式 参数 j 是 常数 ， 在 g ( ) 的 每 一 个 调用 点 ，b 是 常数 。 

转移 函数 和 返回 转移 函数 可 能 的 选择 范围 从 具体 的 常数 到 符号 解释 的 结果 。 有 如 下 一 些 选择 : 

1. 文字 常数 (literal constant)。 这 种 选择 使 得 每 一 个 J ( ) 值 当 调 用 端 传递 一 个 文字 常数 时 
是 常数 ， 否 则 是 上 ; 并 且 它 不 通过 过 程 体 传播 过 程 间 的 常数 。 

2. 过 程 间 常数 (interprocedural constant)。 这 种 选择 使 得 每 一 个 J ( ) 值 当 过 程 内 常数 传播 
能 够 确定 它 是 常数 时 则 为 常数 ， 否 则 为 上 。 

3. 经 传递 的 参数 (pass-through parameter)。 这 种 选择 (这 是 我 们 在 前 面 例子 中 所 使 用 的 ) 在 
过 程 间 常 数 有 效 的 地 方 使 用 过 程 间 常 数 ， 作 为 通过 一 个 被 调用 例 程 而 没有 改变 地 被 传递 的 参数 
的 值 ， 否 则 使 用 上 。 

4. 多 项 式 参数 (polynomial parameter)。 这 种 选择 在 常数 值 可 用 的 地 方 使 用 过 程 内 的 常 
数 ; 当 过 程 内 要 传递 给 一 个 例 程 的 实 参 值 是 此 过 程 的 形 参 组 成 的 一 个 多 项 式 时 ， 使 用 该 过 程 的 
参数 组 成 的 多 项 式 函 数 ; 否则 使 用 1 。 

5. 符号 执行 (symbolic execution)。 这 种 方法 模拟 每 一 个 过 程 的 执行 来 确定 常数 参数 值 。 

这 些 选择 的 代价 按 编号 的 顺序 由 低 至 高 ， 并 且 对 应 地 ， 其 信息 量 也 由 少 到 多 。Grove 和 
Torczon [GroT93] 讨 论 了 转移 和 返回 转移 函数 、 它 们 的 计算 代价 ， 以 及 它们 提供 的 信息 。 

转移 函数 的 使 用 , 使 得 对 于 具有 n 个 结 点 和 e 条 边 的 调用 图 , 以 及 对 于 所 有 转移 函数 的 选择 ， 
除 最 复杂 的 情形 以 外 ， 调 用 位 置 无 关 的 和 调用 位 置 特殊 的 常数 计算 时 间 都 能 在 O(n+e) 内 。 对 于 
调用 位 置 特殊 的 形式 ， 我 们 通过 转换 过 程 到 SSA 形 式 (为 了 计算 效率 起 见 ) 来 修改 此 算法 ， 并 以 
流 敏感 方式 计算 它们 。 

返回 转移 函数 只 在 调用 位 置 特 殊 的 (或 流 敏感 ) 分 析 形式 中 有 用 。 为 了 理解 这 一 点 ， 考 虑 图 
19-23 所 示 的 例 程序 。 一 般 自 然 想到 的 是 在 (使 用 向 前 转移 函数 之 前 ) 对 程序 的 一 个 预 扫 描记 
中 使 用 返回 转移 函数 ， 这 一 遍 预 扫描 从 调用 图 的 叶 结 点 (包括 叶 结 点 强 连通 分 量 中 任意 选择 的 
RA) 开始 ， 于 是 自然 会 选择 过 程 g () 和 参数 a 的 返回 转移 函数 是 R(g, [a,b] ,a) =2。 如 果 
这 样 选择 ， 对 于 过 程 f () 的 调用 点 1， 我 们 就 会 设置 Cval (a) =2。 但 是 ， 这 种 选择 是 不 适合 
AO: 如果 我 们 现在 用 向 前 转移 函数 执行 常数 传播 ， 则 会 使 得 eval (a) 的 一 个 值 作用 于 第 一 个 
g () 调用 之 后 的 那个 调用 ， 而 不 是 第 一 个 调用 。 因 此 ， 如 果 我 们 使 用 返回 转移 函数 ， 流 敏感 是 
必须 的 。 使 用 返回 转移 函数 并 不 影响 此 算法 的 复杂 性 。 

调用 位 置 特殊 的 过 程 间 常 数 传播 能 用 来 控制 19.5 节 所 讨论 的 过 程 克 隆 。 


19.4 过程 间 别名 分 析 
如 第 10 章 讨论 的 ， 不 同 的 语言 其 过 程 内 别名 的 可 能 性 差别 相当 大 ， 其 差别 尤 以 Fortran 和 C 
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为 代表 。 在 过 程 间 别名 分 析 中 ， 人 们 加 入 了 另外 一 种 尺度 ， 即 两 级 作用 域 ， 如 Fortran 和 C 中 的 
情形 ， 以 及 多 级 作用 域 ， 如 Pascal、PL/I 和 Mesa 中 的 情形 。 

Fortran 标 准 特 别 地 禁止 了 对 有 别名 变量 的 赋值 。 但 另 一 方面 ，C 允 许 取 大 多 数 对 象 的 地 址 ， 
允许 将 它 传递 到 几乎 任何 地 方 ， 并 且 几 乎 可 用 它 做 任何 事情 。 

过 程 间 别名 一 般 是 由 参数 传递 和 访问 非 局 部 变量 而 创建 的 。 如 第 10 章 开始 所 讨论 的 ， 别 名 
作为 一 种 关系 具有 的 特征 取决 于 我 们 是 否 考 虑 时 机 的 影响 (或 等 global i, j 
价 地 ， 流 敏感 )。 除 了 在 19.4.2 节 关于 传 值 和 指针 的 语言 的 讨论 之 procedure f( ) 

外 ， 我 们 这 里 关心 的 是 流 不 敏感 信息 。 作 为 流 不 敏感 过 程 间 别 名 
非 传递 性 的 例子 ， 考 虑 图 19-24 中 的 代码 ， 并 假定 参数 是 传 地 址 
AJ. PRI alias a 和 j alias a 成 立 ， 但 i alias j 不 成 立 。 

流 敏感 别名 分 析 的 开销 至 少 与 流 敏感 副作用 分 析 ( 见 19.24 
^s) 的 开销 同样 昂贵 ， 所 以 我 们 满足 于 对 于 传 地 址 的 调用 采用 流 
不 敏感 的 过 程 间 别 名 分 析 方 法 ， 对 于 用 指针 的 传 值 调用 则 采用 一 
种 可 塑 的 过 程 间 别名 分 析 方 法 ， 这 里 可 塑 的 意思 是 它 可 以 是 流 敏 
感 的 也 可 以 是 流 不 敏感 的 ， 如 同 在 10.2 节 和 10.3 节 讨论 过 程 内 别 ” 图 19-24 过 程 间 别 名 分 析 之 例 
名 分 析 时 一 样 。 


19.4.1 流 不 敏感 别名 分 析 


我 们 用 函数 ALIAS: Var x Procedure set of Var 来 描述 程序 中 每 一 个 过 程 内 的 所 有 别 
名 组 成 的 集合 。 具 体 地 ，ALIAS(x，p)=s， 当 且 仅 当 s 由 过 程 p 中 可 能 是 x 的 别名 的 所 有 变量 组 成 。 

计算 4LIAS 的 基本 思想 是 ， 按 深度 为 主 怖 序 ， 沿 着 由 每 一 个 调用 点 与 实 参 结合 的 非 局 部 的 
变量 参数 组 成 的 所 有 可 能 的 链 ， 以 增 量 方式 来 累加 别名 偶 对 。 

Cooper 和 Kennedy [CooK89] 观察 到 ， 只 要 源 语言 不 允许 指针 别名 ， 非 局 部 变量 就 只 可 能 
有 形式 参数 作为 别名 。 根 据 这 一 观察 ， 他 们 开发 了 一 种 有 效率 的 方法 ， 这 种 方法 将 形式 参数 和 
非 局 部 变量 分 开 进行 处 理 ， 由 此 显著 地 减少 了 可 能 需要 计算 的 侦 对 个 数 。 我 们 这 里 描述 的 方法 
以 他 们 的 方法 为 基础 。 

对 于 像 Pascal 或 Mesa 这 类 过 程 可 以 代 套 并 且 变 量 的 可 见 性 由 嵌 套 决定 的 语言 ， 在 别名 判别 
中 有 两 个 复杂 因素 。 一 个 是 俯 套 层 为 [的 例 程 的 形 参 可 能 是 其 内 信 套 层 为 m > /的 例 程 的 非 局 部 
变量 。 另 一 个 因素 实质 上 是 第 一 种 复杂 因素 的 反面 ， 即 在 嵌 套 层 定 义 的 变量 在 小 于 ! 的 供 套 层 
中 是 不 可 见 的 。 为 了 进一步 描述 这 个 问题 ， 我 们 使 用 过 程 的 扩展 形式 参数 集合 (extended 
formal-parameter set) 概念 ， 这 个 概念 在 后 面 再 详 述 。 

概括 而 言 ， 对 于 一 个 程序 P， 别 名 判别 方法 由 如 下 4 个 步骤 组 成 : 

1. 我 们 首先 构造 程序 的 结合 图 B (参见 19.2.1 节 和 图 19-26) 的 一 个 扩展 版 本 ， 此 图 考虑 的 是 
扩展 形式 参数 ， 并 构造 它 的 成 对 结合 图 II( 参 见 下面 的 描述 )。 

2. 接着 解 B 上 的 向 前 数据 流 问 题 ， 对 于 每 一 个 形式 参数 户 ， 计 算 通过 一 个 使 "与 甸 结 合 的 调 
用 链 而 可 能 与 之 别名 的 变量 v (不 包括 形式 参数 ) ARREA). 

3. 然后 执行 在 上 的 标志 算法 (也 可 以 将 它 看 成 是 解 向 前 数据 流 分 析 问 题 )， 以 确定 可 能 
互 为 别名 的 形式 参数 。 

4. 最 后 合并 前 面 几 个 步 景 得 到 的 信息 。 

一 旦 得 到 别名 信息 ， 就 可 以 将 它 与 不 考虑 别名 情况 下 得 到 的 过 程 间 数据 流 问 题 的 解 合并 到 
一 起 而 产生 完整 的 解 。 
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过 程 z 的 扩展 形式 参数 (extended formal-parameter) 集合 ， 记 为 ExtFormals(p)， 是 p 内 可 见 
.的 所 有 形式 参数 组 成 的 集合 ， 包 括 包含 p 的 嵌 套 过 程 的 〈 但 没有 被 界 于 其 间 的 说 明 遮 盖 为 不 可 
见 的 ) 形式 参数 。 例 如 ， 在 图 19-25 中 ， 过 程 n O 的 扩展 形式 参数 集合 是 {m, z, w). 


global a, b 
procedure e( ) 


procedure f(x,y) 
begin 
y := h(1,2,x,x) 
return g(a,y) + b + y 
end II f 
procedure g(z,w) 
local c 
procedure n(m) 
begin 
a := p(z,m 
returnm*a-*c 
end [| n 
begin 


w := n(c) + h(1,z,w,4) 
return h(z,z,a,w) * n(w) 
end ll g 
procedure h(i,j,k,1) 
local b 


procedure t(u,v) 
begin - 
return u + v * p(u,b) 

end i} t 
begin 

b := j * 1+ t(j,k) 

return i + t(b,k) 

end I! h 
procedure p(r,s) 





图 19-25 用 于 过 程 间 别名 计算 的 例 程序 


经 修改 后 建立 结合 图 的 代码 给 出 在 图 19-26 中 (注意 ， 只 有 例 程 Bind_Pairs () 与 图 19-13 
中 的 版 本 不 同 )。 如 果 过 程 p 中 的 指令 i 调用 过 程 q 并 且 将 p 的 扩展 形式 参数 x 与 g 的 扩展 形式 参数 y 
结合 ，passed(p, i, q, x, y) 的 值 为 true， 否 则 返回 false。 

我 们 使 用 图 19-25 中 的 程序 作为 说 明 这 种 处 理 的 例子 。 在 下 面 的 叙述 中 ， 我 们 分 别 用 带 下 
标的 b, 和 b, 来 区 分 全 局 变量 bp 和 bh O 的 局 部 变量 pb。 注意 ， 为 了 允许 更 通用 的 变量 和 参数 命名 方 
法 ， 我 们 需要 标识 出 每 一 个 变量 所 在 过 程 的 嵌 套 序列 ， 例 如 ， 我 们 可 以 用 <b, [ ] > 表示 全 局 变 
量 b， 用 <b, [h] > 表示 h O 中 的 局 部 变量 b Al<y, Dh, t > 表示 t () 的 参数 y。 这 个 例子 的 调 
用 和 结合 图 给 出 在 图 19-27 中 。 
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procedure Build Binding Graph(P,N,E,pinsts) 
P: in set of Procedure 
N: out set of Var 
E: out set of (Var x Var) 
pinsts: in Procedure —> integer 
begin 
P, q: Procedure 
i, m, n: integer 
oldE: set of (Var x Var) 
N := E := oldE := Ø 
repeat 
oldE := E 
for each p € P do 
for i := 1 to numinsts(p) do 
for each q € callset(p,i) do 
Bind Pairs(p,i,q,N,E) 
od 
od 
od 
until E = oldE 
repeat 
oldE :- E 
for each e € E do 
for each f € E (f * e) do 
if e02 = fei & e@i + f02 then 
E v= (e01-1f02) 
fi 
od 
od 
until E = oldE 
end || Build Binding Graph 


procedure Bind Pairs(p,i,q,N,E) 
P, q: in Procedure 
i: in integer 
N: inout set of Var 
E: inout set of (Var x Var) 
begin 
e, f: Var x Var 
for each u € ExtFormals(q) do 
for each v € ExtFormals(p) do 
if passed(p,i,q,v,u) then 
N u= {u,v} 
E u= {v~->u} 
fi 
od 
od 
end || Bind_Pairs 


图 19-26 构建 程序 P 的 结合 图 B 的 算法 


非 局 部 变量 只 可 能 在 这 种 情况 下 与 过 程 的 一 个 形式 参数 别名 : 这 个 非 局 部 变量 在 该 过 程 中 
是 可 见 的 ， 并 且 它 被 作为 实 参 传递 给 那个 形式 参数 。 因 此 我 们 定义 40Vp) (其 中 户 是 一 个 形式 参 
数 ) 是 由 于 一 个 或 多 个 调用 链 使 得 v 与 尹 结合 而 导致 如 可 能 与 之 别名 的 非 局 部 变量 vx (包括 包含 
说 明 p 的 过 程 的 那些 修 套 过 程 的 形式 参数 ) 的 集合 。 为 了 计算 40， 我 们 采用 两 遍 向 前 扫描 结合 
图 B， 首 先 收 集 作为 参数 传递 的 非 局 部 变量 的 结合 ， 之 后 沿 结合 链 而 行 。 计 算 40 的 算法 








at ALI DH 5 HME 
© 
9 O 
(8) C2) 


a) 
图 19-27 图 19-25 中 程序 的 a) 调用 图 ，b) 结合 图 


Nonlocal Aliases () 给 出 在 图 19-28 中 ; 参数 N、P 和 FE 分 别 是 结合 图 的 结 点 集合 、 根 集合 


和 边 集 合 。 算 法 中 用 到 如 下 一 些 过 程 : 
1. Shallow(y) 是 其 说 明 所 在 代 套 层 小 于 或 等 于 "的 说 明 所 在 嵌 套 层 的 变量 集合 。 
2. Formals(p) 是 过 程 p 的 形式 参数 集合 。 
3. Nonlocals(p) 是 非 局 部 于 p， 并 且 不 是 嵌 套 的 任何 过 程 的 形式 参数 的 变量 集合 。 


4. ExtFormals(p) 是 p 内 可 见 的 所 有 形式 参数 集合 ， 包 括 伍 套 p 的 所 有 过 程 的 、 且 未 被 这 


些 过 程 之 间 的 定义 遮盖 的 形式 参数 。 


5. Top. Sort(N, E) 返 回 一 个 从 E 中 抽取 的 边 组 成 的 序列 ， 这 个 序列 表示 一 个 具有 N 个 结 点 


和 E 条 边 并 且 删 除了 后 向 边 的 图 的 拓扑 序 。( 注 意 可 能 存在 一 个 以 上 的 根 。) 


procedure Nonlocal_Aliases(P,N,E,A) 
P: in set of Procedure 
N: in set of Var 
E: in set of (Var x Var) 
A: out Var —> set of Var 
begin 
v: Var 
e: Var x Var 
P» q: Procedure 
i, j: integer 
oldA: Var —> set of Var 
T: sequence of (Var x Var) 























A :=9 
for each p € P do 
for i := 1 to numinsts(p) do 


for each q € callset(p,i) do 
for each v € (Nonlocals(q) 
u (ExtFormals(q) - Formals(q))) do 
for j := 1 to nparams(q) (v = arg(p,i,j)) do 
|| accumulate nonlocal variables and nonlocal formal 


图 19-28 利用 结合 图 高 效 计算 非 局 部 变量 别名 的 算法 
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|| parameters that may be aliases of q( )'s jth parameter 
A(param(q,j)) v= iv) 
od 
od 
od 
od 
od 
T := Top. Sort (N,E) 


repeat 
' oldA := A 


for i := 1 to ITI do 
|| accumulate nonlocals along edges in binding graph 
A(T4i02) u= A(T1ie1) n Shallower(Tli01) 
od 
until oldA = A 
end |! Nonlocal Aliases 








图 19-28 (4%) 


如 果 我 们 定义 Envt() 是 嵌 套 过 程 z 的 过 程序 列 ，P 作 为 此 序列 的 最 后 一 个 元 素 ， 并 定义 
Vars(p) 是 过 程 p 的 形式 参数 和 局 部 变量 集合 ， 则 ExtFormals(p) 可 递归 地 定义 为 
ExtFormals(Envt(p)41) = Formals(Envt(p)11) 


ExtFormals(Envt(p)4i) = Formals(Envt (p) 4) 
u (ExtFormals(Envt(p)4(i-1)) - Vars(Envt(p)4i)) 
for 2 < i s |Envt(p)| 

对 于 我 们 的 例 程序 ，Nonlocal_Aliases () 首 先 初始 函数 A() HO, RAKKEBST 
调用 并 收集 与 形式 参数 别名 的 非 局 部 变量 ， 最 后 在 结合 图 中 向 前 传播 别名 信息 ， 由 此 得 到 表 
19-11a 所 示 之 值 。 

现在 ， 可 以 通过 40 的 逆 函 数 来 计算 与 每 一 个 非 局 部 变量 别名 的 形式 参数 集合 。 这 由 图 19- 
29 所 示 过 程 Invert_Nonlocal_Aliases() 来 完成 ， 它 简单 地 设置 4LIAS0 为 空 函 数 ， 然 后 
收集 来 自 40 集 合 的 值 。 对 于 我 们 的 例子 ， 它 得 到 表 19-11b 所 示 的 值 。 

3*-19-11 对 于 图 19-25 的 例 程 序 ，a) 用 Nonlocal_Aliases() 计 算出 的 A() 集 合 ， 以 及 b) 用 

Invert_Nonlocal_Aliases() 计 算出 的 ALIAS() 集 合 


A = fa,z) ACD = (a, zi A(k) = fa,bi,w) 
AQ) = ibi, v) A(m) = (bi,c,v) A(r) = {a,b2,j,2} 
A(s) = {bi,c,b2} AQ) = {a,b2,j} A(v) = {a,k} 
AGD = (bi) A(x) =9 AGO = fbi) 
A(z) = (a) 

a) 
ALIAS(a,e) =Ø ALIAS (by,e) =Ø 
ALIAS(a,f) = f ALIAS (bl ,£) = (y) 
ALIAS(a,g) = {z} ALIAS(bi,g) = {w} 
ALIAS(a,h) = {i,j,k} ALIAS (b;,h) = {k,1} 
ALIAS(a,n) = {z} ALIAS(b;,n) = {m,w} 
ALIAS(a,p) = {r} ALIAS(b;,p) =Ø 
ALIAS(a,t) = (i,j,k,u,v) ALIAS (b, t) = (s, k,1) 
ALIAS(c,e) =Ø ALIAS(b;,e) =Ø 
ALIAS(c,f) =@ ALIAS(b2,£) = Ø 
ALIAS(c,g) =@ ALIAS(b2,g) =Ø 
ALIAS(c,h) = Ø ALIAS(b2,h) = 9 
ALIAS(c,n) = {m} ALIAS (b2,n) = Ø 
ALIAS(c,p) = d ALIAS (b2,p) = 8 
ALIAS(c,t) =Ø ALIAS(b2,t) = {u} 


b) 


二 
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Nonlocals, ExtFormals: Procedure —> set of Var 


procedure Invert Nonlocal Aliases(P,A,ALIAS) 
P: in set of Procedure 
A: in Var — set of Var 
ALIAS: out (Var x Procedure) —> set of Var 
begin 
p: Procedure 
x, v: Var 
ALIAS := Ø 
for each p € P do 
for each v € ExtFormals(p) do 
for each x € A(v) n Nonlocals(p) do 
ALIAS(x,p) v= (v) 
od 
od 
od 
end 1| Invert. Nonlocal Aliases 





图 19-29 逆转 非 局 部 别名 函数 ， 并 由 此 计算 与 每 一 个 非 局 部 变量 别名 的 形式 参数 集合 的 算法 


形式 参数 成 为 别名 可 有 几 种 途径 。 例 如 ， 如 果 两 个 参数 与 同一 个 实 参 相 结合 ， 则 这 两 个 参 
数 互 为 别名 。 另 外 ， 如 果 传 递 非 局 部 变量 给 一 个 例 程 的 形式 参数 ， 并 且 传 递 与 此 非 局 部 变量 别 
名 的 一 个 变量 给 男 一 个 形式 参数 ， 则 这 两 个 形式 参数 将 互 为 别名 。 此 外 ， 也 可 以 通过 调用 链 传 
递 形式 参数 别名 而 创建 更 多 的 有 别名 的 形式 参数 。 

为 了 建立 这 种 情形 的 模型 ， 我 们 使 用 结合 图 的 一 种 成 对 对 等 物 ， 称 为 成 对 结合 图 II= 
(Ny, Eg) ， 在 这 种 图 中 ， 每 一 个 结 点 是 同一 过 程 的 一 对 扩展 形式 参数 ， 每 一 条 边 模 仿 由 一 个 调 
用 导致 的 一 个 偶 对 与 另 一 个 偶 对 的 结合 。 图 19-30 给 出 了 建立 程序 的 成 对 结合 图 的 代码 。 

procedure Build Pair Graph(P,N,E) l : 
P: in set of Procedure 


N: out set of (Var x Var) 
E: out set of ((Var x Var) x (Var x Var)) 





q, r: Procedure 
v, W, X, y: Var 
: integer 


for each p € P do 
for each u,v € ExtFormals(p) do 
N us {<u, v>} 
od 


od 


for each p € P do 
for k := 1 to numinsts(p) do 
for each q € callset(p,k) do 
for each u,v € ExtFormals(q) do 
for each w,x € ExtFormals(p) do 

if match(p,q,k,w,u,x,v) then 
E u= (x52 (0, 

elif 3r € P 3s € integer Jw € Var 
(pair match(p,u,v,q,8,r,w,x,y)) then 


图 19-30 Hr ET BS SOS ES PRTIBU SERE 
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E us {{u,v)><x,y>} 


fi 
od 
od 
od 
od 
od 
end |! Build Peir Graph 





图 19-30 ($8) 


国 数 match(p, q, k, w, u, x, v) 返 回 true， 如 果 过 程 p 的 指令 Kk 调用 过 程 g， 并 且 分 别传 递 p 的 
扩展 形式 参数 w 和 x 给 gq 的 扩展 形式 参数 wx 和 v; 否则 返回 false。 

函数 pair_match(p, u, v, q, s, r, w, x, 》) 返 回 true， 如 果 满 足下 列 条 件 : 存在 p 的 扩展 形 
式 参数 wx 和 v， 以 及 嵌 套 在 2 内 的 过 程 a 中 的 一 个 调用 点 *， 使 得 对 于 某 个 过 程 r>，<9g, s> 调 用 r+， 并 
分 别 使 4 和 w 与 ?的 扩展 形式 参数 x 和 y 结 合 ， 并 且 v € AW); 否则 ， 返 回 false。 如 果 存 在 满足 
pair_match(p, u, v, q, s, r, w, x, y) 的 过 程 、 整 数 、 变 量 和 调用 点 ， 我 们 加 一 条 从 <u, v> 到 <x， 
y> 的 边 ， 如 图 19-31 所 示 。 


ve A(w) 


图 19-31 加 入 满足 pair_match() 的 一 条 弧 到 成 对 结合 图 的 图 解 。 已 知 过 程 p 有 扩展 形式 参数 和 lv， 
嵌 套 在 p 内 的 过 程 q 在 调用 点 <q, s> 调 用 过 程 "， 并 分 别传 递 4 给 7 的 形式 参数 +， 传递 w 给 7 的 形式 
参数 y， 并 且 v& A(w)， 我 们 将 边 <u, vo x, y> 加 入 到 成 对 结合 图 [I 中 


我 们 这 个 例子 的 成 对 结合 图 给 出 在 图 19-32 中 。 

为 了 发 现 可 能 互 为 别名 的 成 对 形 参 ， 我 们 按 如 下 方式 来 标志 程序 的 成 对 结合 图 : 如 果 传 
递 一 个 变量 给 一 个 例 程 的 两 个 不 同 的 形式 参数 ， 则 这 两 个 形式 参数 互 为 别名 ， 因 此 给 成 对 结 
合 图 中 的 对 应 结 点 打上 标记 。 另 外 ， 如 果 (1) 传 递 一 个 非 局 部 变量 给 过 程 4 的 一 个 形式 参数 ， 
(2) 传 递 g 的 调用 者 的 形式 参数 给 4 的 另 一 个 形式 参数 ， 并 且 (3) 该 调用 者 的 形式 参数 是 这 个 非 局 
部 变量 的 别名 ， 则 4 的 这 两 个 形式 参数 可 能 别名 ， 因 此 那个 偶 对 也 打上 标记 。 这 个 算法 给 出 在 
图 19-33 中 。 

对 于 我 们 的 例子 ， 这 导致 <k, 1>、<1, k>, <i, j>, <j, i>, <r, s>, <j, k>, <j, 1>、 
<i, l>, <u, v». <S, r>, <k, j>, <1,j>. <l, 1> 和 <v，u> 都 被 打上 标记 。 图 19-32 中 用 带 
阴影 的 圆圈 表示 带 标记 的 结 点 。 注 意 ，<r,， s> 和 <s, <> 是 图 19-33 中 带 星 号 的 那 条 ii 语句 惟 一 
标记 的 两 个 结 点 。 
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<x, X> <z, z> 


<k,1> <1,k> <i,j> <j,i> 


<Z,m> 


<r,s> 


«m,z» 


«S,r» 





<v,v> © <r,r> O <s,3> © 


<x,y> Q 


«y,» © 


<y,y> O 


«w,w» O 


<m,m> Q 


<i,i> O 


<i, O 


<i,k> O 


<j,j> O 


<k,i> O 


<k,k> O 


4,1» O 


<u,u> © 
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图 19-32 我 们 这 个 例子 的 成 对 结合 图 。 结 点 和 边 由 Builg_Pair_Graph() 生成。 阴影 结 点 由 
Mark_Alias_Pairs() 标 记 。Prop_Marks () 没 有 给 另外 的 结 点 打上 标记 


procedure Mark Alias Pairs(P,Mark,ALIAS) 
P: in set of Procedure . 
Mark: out (Var x Var) 一 > boolean 
ALIAS: in (Var x Procedure) —> set of Var 
begin 
p. q: Procedure 
i, j, k, 1: integer 
u, V, W, X, y: Var 
Mark := 9 
for each p € P do 
for i :- 1 to numinsts(p) do 
for each q € callset(p,i) do 
for each u,v € ExtFormals(q) (u * v) do 
if dw,x € ExtFormals(p) 
(match(p,q,i,w,u,x,v)) then 
Mark(u,v) := Mark(v,u) := true 


图 19-33 标记 程序 结合 图 中 参数 偶 对 的 算法 
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fi 


od 
if dy € ExtFormals(p) 3k € integer 
(y = arg(p,i,k)) then 
for each w € Nonlocals(p) do 
if 31 € integer (w = arg(p,i,1) 
& y € ALIAS(w,p)) then 
Mark(param(q,k),param(q,1)) := true 


Mark(param(q,l),param(q,k)) := true 





end || Mark Alias Pairs 
图 19-33 (£&) 


接着 ， 用 图 19-34 中 的 过 程 Prop_Marks O 沿 成 对 结合 图 向 前 传播 这 些 标记 ， 以 保证 一 个 
例 程 的 形式 参数 的 别名 信息 被 适当 地 传递 给 它 调用 的 例 程 的 形式 参数 。 这 是 通过 维护 一 张 成 对 
结合 图 中 带 标记 的 结 点 表 来 实现 的 。 随 着 每 一 个 结 点 从 此 表 中 被 删除 ， 沿 着 从 那个 结 点 出 发 的 
WHAT. 标记 所 到 达 的 结 点 。 如 果 前 面 没有 标记 这 些 结 点 ， 则 将 它们 加 入 到 带 标记 的 结 点 表 中 。 
对 于 我 们 的 例子 ， 这 个 过 程 没有 标记 出 额外 的 偶 对 。 


procedure Prop Marks(N,E,Mark) 
N: in set of (Var x Var) 
E: in set of ((Var x Var) x (Var x Var)) 
Mark: inout (Var x Var) —> boolean 
begin 
n: Var x Var 
f: (Var x Var) x (Var x Var) 
WL := Ø: set of (Var x Var) 
for each n € N do 
if Mark(n@1,n@2) then 
WL u= ín) 
fi 
od 
while WL * Ø do 
n := OWL; WL -= {n} 
for each f € E (f@1 = n) do 


if !Mark(f0201,f0202) then 
Mark(f0201,f0202) := true 
WL u- {£02} 


fi 
od 
od 
end |! Prop Marks 


图 19-34 在 程序 的 偶 对 结合 图 中 传播 参数 偶 对 标记 的 算法 
接 下 来 ， 我 们 通过 合并 A () MALIAS() 集合 ， 并 使 用 Mark O 信息 来 计算 形式 参数 的 别名 。 
完成 这 个 任务 的 例 程 Formal_Aliases () 是 直观 的 ， 图 19-35 给 出 了 其 代码 。 它 用 到 了 过 程 
Outside_In(P), 这 个 过 程 的 返回 值 是 组 成 P 的 那些 过 程 的 一 个 序列 ， 此 序列 按 伴 套 顺 序 的 拓扑 
序 排 列 ， 最 外 层 的 过 程 排 在 前 面 。 对 于 我 们 的 例子 ， 这 导致 得 到 表 19-12 所 示 的 别名 集合 。 
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procedure Formal.Aliases(P,Mark,A,ALIAS) 
P: in set of Procedure 
Mark: in (Var x Var) —» boolean 
A: in Var —> set of Var 
ALIAS: inout (Var x Procedure) —9 set of Var 
begin 
OI: sequence of Procedure 
p: Procedure 
i: integer 
v: Var 
OI := Dutside In(P) 
for i := 1 to |OI! do 
p := Olti 
for j := 1 to nparams(p) do 
ALIAS(param(p,j),p) := A(param(p,j)) 
for each v € ExtFormals(p) do 
if param(p,j) * v & Mark(param(p,j),v) then 
ALIAS(param(p,j),p) u= (v) 
ALIAS(v,p) v= {param(p,j)} 
fi 
od 
od 
od 
end || Formai_Aliases 





图 19-35 由 Mark () AO MIALIAS() 计算 形式 参数 别名 信息 的 算法 
表 19-12 由 Formal_Aliases() 计 算出 的 图 19-25 例 子 的 形式 参数 别名 集合 





ALIAS(x,f) =Ø ALIAS(y,f) = (bi) 
ALIAS(z,g) = {a} ALIAS(w,g) = (bi) 
ALIAS(i,h) = (a,j,k,1) ALIAS(j,h) = {a,i,k,1} 
ALIAS(k,h) = {a,bi,i,j,1} ALIAS(1,h) = (bi, i, j,k} 
ALIAS(m,n) = (bi,c) ALIAS(u,t) = {a,b2,v} 
ALIAS(v,t) = {a,u} ALIAS(r,p) = {a,b2,s} 


ALIAS(s,p) = (bi,c,r) 





这 种 别名 计算 方法 的 时 间 是 O02 en - e)， 其 中 nn 和 和 e 分 别 是 程序 调用 图 的 结 点 个 数 和 边 的 条 数 。 

为 了 将 别名 信息 与 副作用 计算 的 忽略 别名 的 版 本 合并 ， 我 们 使 用 图 19-36 所 示 的 算法 ， 其 
中 用 MOD 作 为 例子 。 大 体 的 做 法 是 ， 我 们 初始 化 MOD 为 DMOD， 然 后 将 形式 参数 和 非 局 部 变 
量 的 别名 加 入 到 其 中 。 


19.4.2 ， 传 值 和 传 指针 语言 的 过 程 间 别名 分 析 


为 了 对 类 似 于 C 这 种 传 值 和 传 指针 的 语言 进行 别名 分 析 ， 我 们 扩充 10.2 节 和 10.3 节 讨论 的 
过 程 内 的 方法 。 具 体 地 ， 我 们 用 一 个 过 程 的 调用 点 的 信息 来 初始 该 过 程 入 口 的 Ovr0 和 Ptr0 和 函 
数 ， 并 用 来 自 被 调用 过 程 返回 点 的 信息 设置 过 程 返 回 到 调用 点 的 Ovr0 和 PtrO 国 数 。 我 们 可 以 
对 每 一 个 调用 点 单独 进行 分 析 ， 也 可 以 同时 对 调用 一 个 特定 例 程 的 所 有 调用 进行 分 析 。 

首先 ， 假 定 我 们 每 次 只 分 析 一 个 调用 点 。 令 P 和 P' 分 别 是 直接 位 于 此 调用 点 之 前 和 紧 跟 在 
其 后 的 程序 点 ， 令 entry+ 和 return- 分 别 是 紧 跟 在 例 程 入 口 之 后 和 直接 位 于 return 之 前 的 
程序 点 ， 如 图 19-37 所 示 。 于 是 ， 对 于 一 个 非 局 部 变量 x， 这 两 个 函数 的 初 值 为 : 

Ovr(entry-, x)= Ovr(P, x) 

Pir(entry+, x) - Ptr(P, x) 
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procedure MÜD with Aliases(P,ALIAS,DMOD,MOD) 
P: in set of Procedure 
ALIAS: in (Var x Procedure) —> set of Var 
DMOD: in (Procedure x integer) 一 > set of Var 
MOD: out (Procedure x integer) —> set of Var 
begin 
P. q: Procedure 
i: integer 


v: Var 
for each p € P do 
for i := 1 to numinsts(p) do 


|| initialize MOD with direct MOD 

MOD(p,i) := DMOD(p,i) 

|| add formal-parameter aliases 

for each v € Formals(p) do 
if v € DMOD(p,i) then 

MOD(p,i) U- ALIAS(v,p) 

fi 

od 

|| add nonlocal-variable aliases 

for each v € Nonlocals(p) n DMOD(p,i) do 
MOD(p,i) u= ALIAS(v,p) 

od 

od 
od 
end || MOD with Aliases 


图 19-36 将 别名 信息 与 忽略 别名 的 副作用 信息 合并 的 算法 


对 于 传递 给 形 参 x 的 实 参 y， 共 初 值 如 下 : 
Ovr(entry*, x) = Ovr(P', y) 


Ptr(entry*, x) = Ptr(P', y) 


对 于 返回 ， 我 们 对 非 局 部 变量 xz 做 反 向 的 初始 化 ， 即 


Ovr(P', x) = Ovr(return-, x) 


Ptr(P', x) = Ptr(return-, x) 
例如 ， 考 虑 图 19-38 中 的 C 代 码 。Ptr0 函 数 的 计算 结果 是 : 
Ptr(P, p) = star(a) 
Ptr(P, q) — star(a) 
Ptr(P, r) — star(a) 





f(...) 
int *p, *q; 
int *f(int *q) 
' { P= qi 
| P entry+ return p; 
} . 
call f(...) 
int main( ) 
| return- { int a, *r; 
r = f(ka); 


} 





#19 = 


图 19-37 一 个 C 例 程 的 调用 点 、 人 口 和 返回 图 19-38 过 程 间 别 名 分 析 的 C 程 序 示例 
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其 中 ?表示 main () 中 紧 跟 在 从 E () 返回 之 后 的 程序 点 。 
为 了 同时 对 调用 一 个 特定 例 程 的 所 有 的 调用 点 P，…, P” 进行 分 析 ， 对 于 非 局 部 变量 x 和 前 
面 关于 参数 传递 以 及 关于 返回 点 的 非 局 部 变量 的 方程 的 相应 改写 版 本 ， 我 们 设置 


k 
Ovr(entry*, x) — U Ovr(P; ,X) 


i21 


k 
Ptr(entry*, x) — U Ptr(P; X) 


i=1 


19.5 过 程 间 优化 


有 了 前 面 几 节 讨论 的 关于 过 程 间 控制 流 、 数 据 流 和 别名 分 析 的 手段 之 后 ， 便 有 可 能 做 如 下 
一 些 优化 了 : 

1. 我 们 能 够 利用 过 程 间 分 析 收 集 的 信息 来 指导 过 程 集成 。 

2. 我 们 能 够 利用 位 置 无 关 常 数 传播 分 析 提 供 的 信息 来 优化 那 种 总 是 用 相同 的 一 个 或 多 个 党 
数 参 数 调用 的 过 程 体 。 

3. 我 们 能 够 利用 位 置 特殊 的 常数 传播 分 析 提 供 的 信息 来 克隆 一 个 过 程 体 的 副本 ， 并 针对 特 
定 的 调用 点 优化 它们 。 ? 

4. 我 们 能 够 使 用 副作用 信息 剪裁 特殊 调用 点 的 调用 约定 ， 达 到 对 调用 过 程 和 被 调用 过 程 之 
间 的 寄存 器 保护 进行 优化 的 目的 。 

5. 对 于 那 种 体积 较 大 且 不 能 将 它们 改 成 传 地 址 方式 传递 的 实 参 ， 我 们 能 够 对 它们 的 传 值 参 
数 的 传递 代码 进行 优化 。 

6. 最 后 ， 并 且 也 是 最 频繁 使 用 和 最 重要 的 ， 我 们 能 够 利用 过 程 间 数据 流 信息 改善 过 程 内 关 
于 过 程 入 口 和 出 口 ， 以 及 关于 调用 和 返回 的 数据 流 信息 。 

过 程 间 分 析 能 够 提供 指导 过 程 集 成 需要 的 许多 信息 ， 如 调用 点 的 个 数 和 关于 常数 值 参数 的 
信息 。 有 关 细 节 参 见 15.2 节 。 

根据 常数 参数 来 进行 优化 的 方法 是 显而易见 的 。 我 们 在 过 程 的 中 间 代 码 形式 中 用 常数 值 替 
换 那 些 常数 值 参数 ， 并 在 由 此 得 到 的 结果 代码 上 执行 第 12~18 章 讨论 的 全 局 优化 。 我 们 也 裁剪 
这 种 过 程 的 调用 和 入 口 代码 ， 使 之 不 传递 或 接收 常数 参数 。 这 种 替换 是 在 中 间 代 码 上 ， 而 不 是 
在 源 程序 代码 上 进行 ， 因 为 对 源 程序 的 进一步 修改 可 能 会 使 得 优化 所 依据 的 信息 失效 。 

对 在 一 个 或 多 个 调用 点 上 值 为 常数 的 过 程 参数 进行 优化 〈 称 为 过 程 特殊 化 或 克隆 ) 也 较 
容易 。 对 于 调用 相同 过 程 ， 并 且 传 递 相 同 常数 值 给 一 个 或 多 个 参数 的 调用 点 集合 ， 我 们 克隆 
这 个 过 程 体 的 中 间 代 码 的 一 个 副本 ， 然 后 对 克隆 体 和 它 的 调用 点 执行 前 面 段落 中 介绍 的 相同 
优化 。 

这 两 种 情况 常常 使 得 删除 过 程 体内 不 必要 的 边界 检查 这 种 优化 成 为 可 能 。 例 如 ， 许 多 例 程 
都 被 编写 成 能 对 任意 大 小 的 数组 进行 操作 ， 但 在 具体 的 程序 中 只 用 来 处 理 其 大 小 由 主 程序 确定 
的 数组 。 传 播 数 组 大 小 的 信息 给 通用 的 例 程 ， 能 够 使 它们 被 裁剪 成 适应 特定 应 用 ， 从 而 可 能 导 
致 程序 的 加 速 ， 或 更 易于 执行 其 他 的 优化 。 例 如 ， 图 15-$ 中 的 代码 仅 以 incx= incy=1 调 用 
saxpy() ， 传 播 这 一 事实 可 使 它 的 代码 减少 到 如 图 19-39 所 示 。 注 意 ， 它 也 能 使 saxpy O 的 过 
程 体 更 容易 集成 到 sgefa () 中 。 
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subroutine sgefa(a,lda,n,ipvt,info) 
integer lda,n,ipvt(1),info 
real a(1da,1) 
real t 
integer isamax,j,k,kpi,1,nm1 
do 30 j = kpi, n 
t = a(l,j) 
if (l .eq. k) go to 20 
a(1,j) = a(k,j) 
a(k,j) =t 
continue 
call saxpy_11(n-k,t,a(k+1,k),a(k+1,j)) 
continue 


subroutine saxpy_11(n,da,dx,dy) 
real dx(1),dy(1),da 
integer i,ix,iy,m,mpi,n 
if (n .le. 0) return 
if (da .eq. ZERO) return 
do 30 i = 1,n 
dy(i) » dy(i) * da*dx(i) 
continue 
return 
end 


图 19-39 在 确定 出 incx= incy=1， 并 传播 此 信息 到 saxpy O 过 程 体 
内 之 后 的 Linpack 例 程 saxpy() 和 sgefa 中 它 的 调用 上 下 文 


另外 要 注意 的 是 ， 这 种 常数 有 时 是 由 全 局 变量 而 不 是 由 参数 传送 给 过 程 的 ， 这 种 情况 也 值 
得 分 析 和 利用 。 

对 于 体积 较 大 对 象 (如 数组 和 记录 ) 的 传 值 调用 参数 ， 将 它 的 传递 方式 优化 为 传 地址 调用 ， 
取决 于 判定 一 个 过 程 p 的 参数 o 是 否 有 ae MOD)。 如 果 没 有 ， 则 p 和 调用 图 中 它 的 后 裔 都 不 会 
修改 as， 因此 修改 它 的 传递 方式 为 传 地址 方式 是 安全 的 。 这 样 做 还 需要 改变 访问 实 参 和 形 参 的 
代码 为 访问 其 地 址 而 不 是 其 值 。 另 外 ， 若 在 调用 图 中 存在 这 样 的 点 : 我 们 知道 参数 在 此 点 没有 
被 改变 〈 可 能 从 过 程 接口 而 得 知 ) ， 但 是 却 没有 可 用 于 改变 参数 传递 的 有 效 代码 ， 则 我 们 必须 
在 那 一 点 将 参数 传递 转换 回 到 传 值 方式 。 

最 后 ， 第 12~18 章 讨论 的 许多 过 程 内 的 优化 都 可 以 通过 利用 准确 的 过 程 间 数据 流 信息 而 得 
到 改善 。 既 可 以 利用 被 调 过 程 有 关 的 信息 改善 围绕 调用 点 的 优化 ， 也 可 利用 参数 和 全 局 变量 有 
关 的 信息 改善 过 程 内 的 优化 。 例 如 ， 当 循环 不 变 代码 外 提 (参见 13.2 节 ) 作用 于 一 个 含有 调用 
的 循环 时 ， 如 果 通 过 过 程 间 方 法 能 够 确定 此 调用 对 一 个 过 程 内 分 析 确 定 为 循环 不 变 的 表达 式 没 
有 副作用 ， 就 可 以 实现 循环 不 变 代码 外 提 ， 从 而 使 性 能 得 到 改善 。 

为 了 将 过 程 间 数 据 流 信息 用 于 全 局 (SERIAL) 数据 流 分 析 ， 我 们 首先 做 过 程 间 的 分 析 ， 然 
后 使 用 其 结果 初始 过 程 入 口 和 出 口 处 的 全 局 数据 流 信息 ， 并 将 原本 不 透明 的 调用 转变 成 能 够 理 
解 它 的 数据 流 作用 信息 的 操作 。 在 某 些 情况 下 ， 重 复 地 进行 这 种 过 程 间 的 计算 ， 之 后 再 进行 过 
程 内 数据 流 分 析 的 处 理 可 以 获得 显著 的 好 处 ， 但 一 般 不 值得 大 量 增加 它 所 消耗 的 编译 时 间 ， 除 
非 可 以 在 程序 员 做 其 他 事情 的 同时 将 它 作为 后 台 行为 来 进行 ， 从 而 让 用 户 感觉 不 到 它 。 

例如 ， 利 用 过 程 间 分 析 提 供 的 信息 来 初始 过 程 人 口 点 的 常数 信息 ， 可 以 使 得 全 局 常数 传播 
(参见 12.6 节 ) 顾及 到 过 程 间 的 常数 传播 。 
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Srivastava 和 Wall [SriW93] 探 讨 了 另 一 种 整体 的 优化 方法 ， 这 种 方法 作为 连接 处 理 中 的 一 个 . 


较 早 步 允 ， 它 将 一 系列 的 目标 模块 作为 输入 和 输出 。 在 其 原型 版 本 中 ， 它 将 每 一 个 目标 模块 转 
换 成 寄存 器 转 递 语言 (RTL) 表 示 ， 做 过 程 间 控制 流 和 活跃 变量 分 析 ， 然 后 做 过 程 间 死 代码 删除 和 
全 局 与 过 程 间 循环 不 变 代 码 外 提 。 最 后 ， 它 做 全 局 复写 传播 、 全 局 公共 子 表达 式 删除 和 过 程 间 
无 用 存 数 指令 删除 ， 之 后 将 RTL 转 换 回 到 要 连接 的 目标 模块 。 这 种 方法 产生 的 结果 好 得 令 人 惊 
奇 ， 尤 其 是 考虑 到 它 除了 与 目标 代码 本 身 有 关 之 外 ， 它 并 不 依赖 于 前 面 编译 遍 产生 的 信息 。 


19.6 过 程 间 寄 存 器 分 配 


另 一 种 能 对 性 能 有 相当 大 改善 的 过 程 间 优化 是 过 程 间 寄存 器 分 配 。 这 一 节 我 们 详细 介绍 一 
种 由 Wall [Wall86] 开 发 的 方法 ， 并 略 述 另 外 三 种 方法 。 这 三 种 方法 与 Wall 的 方法 的 区 别 在 于 ， 
Wall 的 方法 是 在 连接 时 进行 的 ， 而 这 三 种 方法 是 在 编译 期 间 进行 的 。 

19.6.1 连接 时 的 寄存 器 分 配 

Wall 发 明了 一 种 在 连接 时 进行 过 程 间 寄 存 器 分 配 的 方法 ， 这 种 方法 综合 了 两 种 观察 ， 这 两 
种 观察 导致 能 够 进行 过 程 间 分 配 和 在 过 程 体内 随意 使 用 图 着 色 分 配 。 我们 在 这 里 概述 这 种 方法 ， 
并 对 它 进 行 了 适当 提炼 ， 以 使 它 更 加 实用 。 

这 两 种 观察 中 的 第 一 种 是 ， 如 果 已 生成 的 代码 是 完整 的 ， 也 就 是 说 不 需要 寄存 器 分 配 就 能 
正确 运行 ， 则 用 于 驱动 连接 时 可 选 寄存 器 分 配 的 注释 就 可 以 像 重 定位 信息 一 样 编码 在 目标 模块 
中 ， 并 且 它 可 用 来 驱动 代码 的 修改 ， 或 者 被 忽略 。 

第 二 种 观察 是 ， 如 果 程 序 调 用 图 中 的 两 条 路 径 不 相交 ， 则 在 每 一 条 路 径 上 的 过 程 可 自由 分 
配 相 同 的 寄存 器 。 考 虑 图 19-40 的 调用 图 便 可 阐明 后 一 观察 ， 
图 中 每 一 个 框 表示 一 个 过 程 ， 箭 头 表示 调用 。 过 程 c 和 q 没 有 
相互 调用 ， 因 此 它们 可 以 互 不 冲突 地 使 用 相同 的 寄存 器 。 类 
似 地 ， 由 e、f 和 g 组 成 的 链 与 由 bp、c 和 G 组 成 的 子 树 不 相交 ， 
因此 在 这 条 链 中 和 子 树 中 可 以 使 用 相同 的 寄存 器 而 不 会 有 任 
何冲 突 。 本 节 介 绍 的 寄存 器 分 配方 法 基于 第 二 种 观察 ， 并 结 
合 了 某 种 (独立 选择 的 ) 过 程 内 寄存 器 分 配方 法 。 

指导 寄存 器 分 配 的 注释 由 一 些 偶 对 组 成 ， 每 一 个 偶 对 的 
第 一 个 元 素 是 zxrmv、op1、op2、res、1od 和 sto 等 6 个 运 
算 符 之 一 ， 它 的 第 二 个 元 素 引 用 的 是 与 这 个 注释 相连 的 指令 
的 操作 数 之 一 。 

作为 这 种 注释 的 第 一 个 例子 ， 考 虑 图 19-41a 中 的 LIR 代 、 
码 ， 其 中 x、y 和 2 表示 存储 位 置 。rmv .v 的 含义 是 ， 若 在 连 BOO 过 程 站 麻吉 分 本 
接 时 将 v 分 配 到 寄存 器 中 ， 则 应 当 删 除 这 条 指令 。op1.v、op2 .v 和 res .v 的 含义 是 ， 若 v 被 分 
配 到 寄存 器 中 ， 则 指令 中 与 之 对 应 的 位 置 应 当 用 分 配给 它 的 寄存 器 号 来 替换 。 于 是 ， 如 果 我 们 
成 功 地 将 x 和 Yy 分 别 分 配 到 寄存 器 r6 和 r14 中 ， 则 代码 序列 将 变 成 如 图 19-41b 所 示 。1o6 运 算 符 
用 于 那 种 从 存储 器 取 数 , 并 且 在 基本 块 中 最 后 一 次 使 用 这 个 被 取 值 之 前 将 对 它 进行 修改 的 变量 。 
sto 运 算 符 用 于 在 当前 使 用 之 后 还 要 使 用 的 值 。 例 如 ，C 语 名 

xX = y = a++ -b 
将 导致 图 19-42 所 示 的 带 注 释 的 代码 。 如 果 我 们 给 a 分 配 一 个 寄存 器 ， 就 需要 用 寄存 器 到 寄存 器 的 
复制 指令 替代 第 一 条 指令 ; 如 果 给 y 分 配 一 个 寄存 器 ， 则 需要 用 另 一 条 复制 指令 替代 存储 y 的 指令 。 
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rie y rmv.y 

r2 ez rmv.z r2 ez 

r3 < ri + r2 opl.y op2.z res.x ri4 «- r6 + r2 
x = r3 rmv.x 


a) b) 
图 19-41 a) LIR 代 码 序列 的 例子 和 相连 的 注释 b) 给 x 和 y 分 配 寄存 器 之 后 的 结果 


ri «a 

r2 «€ ri +1 
a «- r2 

r3 e b 

r4 < r2 + r3 


y < r4 
x < r4 





(919-42 C 语 句 x=y=a++-b 对 应 的 带 注释 的 LIR 代 码 


当然 ， 如 果 我 们 删除 这 两 条 指令 ， 则 还 需要 修复 引用 这 个 指令 序列 的 地 址 和 偏 移 ， 不 过 ， 
这 样 做 所 需要 的 信息 已 经 存在 于 指令 本 身 和 它们 的 再 定位 信息 中 。 

Wall 生成 注释 的 方法 是 产生 三 元 式 (参见 4.9.1 节 ) 作为 中 间 代 码 ， 然 后 从 后 向 前 扫描 每 一 
个 基本 块 ， 标 志 如 下 的 操作 数 : 

1. 在 与 它们 相连 的 变量 被 存储 之 后 可 能 再 次 使 用 的 操作 数 v( 即 那 些 需 要 1od.v 而 不 是 
rmv.v 的 操作 数 )。 

2. 那 种 被 存储 之 后 可 能 再 次 被 使 用 的 操作 数 〈 即 那些 需要 sto .v 而 不 是 rmv .v 的 操作 数 )。 

3. 其 余 可 以 用 op1.v、op2 .v、res .y 或 rmv .y 注 释 的 操作 数 。 
然后 ， 它 生成 目标 模块 ， 并 记录 模块 中 的 过 程 于 一 张 表 中 。 并 且 ， 对 每 一 个 过 程 ， 记 录 它 的 局 
部 变量 、 它 引用 的 变量 以 及 它 调 用 的 过 程 于 一 张 表 中 ， 同 时 还 附带 记录 每 一 个 变量 被 引用 的 次 
数 和 每 一 个 过 程 被 调用 的 次 数 。 

在 连接 处 理 的 开始 ， 一 旦 已 确定 了 需要 连接 哪些 模块 ， 便 启动 过 程 闻 寄 存 器 分 配 程序 。 读 
程序 建立 一 个 每 个 过 程 有 一 结 点 的 调用 图 ， 并 收集 与 过 程 的 调用 和 变量 用 法 有 关 的 信息 。 调 用 
图 要 求 是 一 个 DAG; 这 是 需要 特别 对 待 的 问题 之 一 ， 因 为 它 有 可 能 没有 精确 地 表示 程序 。 具 
体 地 ， 递 归 调 用 和 通过 过 程 值 变量 的 间接 调用 不 能 用 和 其 他 调用 相同 的 方法 来 处 理 。 递 归 调 用 
如 果 精 确 地 表示 话 ， 会 使 得 调用 图 不 是 DAG， 并 且 ， 如 果 它 们 的 寄存 器 分 配方 法 与 其 他 例 程 
的 寄存 器 分 配方 法 相同 的 话 ， 则 会 导致 它们 重用 与 已 经 调用 的 同一 例 程 所 使 用 的 寄存 器 相同 的 
寄存 器 。 类 似 地 ， 由 过 程 值 变量 调用 的 过 程 可 能 是 若干 个 可 能 过 程 之 中 的 任意 一 个 过 程 ， 即 使 
在 连接 时 也 可 能 无 法 精确 地 知道 具体 是 哪个 过 程 。 

在 估算 出 每 个 例 程 的 总 调用 次 数 之 后 ， 分 配 程 序 按 深度 为 主 的 逆序 遍历 这 个 DAG， 如 果 可 
能 的 话 ， 将 那些 可 以 分 配 到 一 个 寄存 器 中 的 变量 组 合成 一 组 。 它 将 单个 全 局 变量 自 成 一 组 ， 不 
同时 活跃 的 局 部 变量 组 成 一 组 ， 每 组 关联 一 个 引用 频率 。 然 后 分 配 程序 按 频率 对 这 些 组 排序 ， 
并 在 假定 有 R 个 寄存 器 可 用 于 分 配 的 情况 下 ， 指 派 寄 存 器 给 前 面 的 R 组 (或 用 另 一 种 方法 ， 它 
可 以 在 过 程 体内 使 用 图 着 色 分 配 程序 )。 最 后 ， 它 根据 这 种 分 配 信息 和 注释 重 写 目标 代码 。 

有 若干 问题 需要 进行 特殊 处 理 ， 或 者 用 特殊 技术 可 使 其 得 到 改善 ， 具 体 如 下 : 

1. 对 于 分 配 到 寄存 器 中 的 有 初 值 的 全 局 变量 ， 需 要 在 代码 中 播 入 取 数 指令 设置 其 初 值 。 

. 2. 递归 和 间接 调用 既 可 以 使 用 标准 调用 序列 ， 或 者 对 于 递归 调用 ， 也 可 以 使 用 特殊 的 调用 
序列 来 保护 和 恢复 那些 需要 保护 和 恢复 的 寄存 器 。 
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3. 可 以 给 存储 参数 值 至 运行 栈 的 指令 加 入 形 如 par .proc.v 的 注释 ， 指 出 被 调用 的 过 程 是 
proc、 被 传递 的 参数 是 v， 来 适应 传递 参数 在 寄存 器 中 而 不 是 在 存储 栈 中 的 情况 。 

4. 剖面 分 析 可 用 更 直接 的 反映 程序 实际 特征 的 执行 次 数 替代 估计 的 引用 频率 ， 从 而 改善 寄 
存 器 分 配 的 效果 。 

5. 图 着 色 可 用 来 改善 将 变量 组 合成 组 时 使 用 的 活跃 信息 。 这 使 得 某 些 局 部 变量 可 以 更 有 效 
率 地 被 合并 到 分 配 组 中 。 
19.6.2 编译 时 的 过 程 间 寄存 器 分 配 


有 三 种 编译 时 进行 过 程 间 寄存 器 分 配 的 方法 曾 在 文献 中 讨论 过 ， 并 且 已 在 一 些 编译 器 中 实现 。 


其 中 一 种 是 由 Santhanam 和 Odnert[SanO90] 开 发 的 ， 这 种 方法 扩充 了 图 着 色 寄 存 器 分 配 


(参见 16.3 节 )， 它 通过 过 程 间 活 跃 变量 计算 来 确定 与 全 局 变量 有 关 的 网 。 它 将 调用 图 划分 为 网 ， 
每 一 个 全 局 变量 一 个 网 ， 并 分 配 具 有 最 高 使 用 频率 的 网 到 寄存 器 中 ， 留 下 剩余 的 寄存 器 用 于 过 
程 内 分 配 。 

由 Chow[Chow88] 开 发 的 另 一 种 方法 已 作为 基于 优先 级 的 图 着 色 寄 存 器 分 配 (参见 16.4 节 ) 
的 扩充 而 实现 。 它 的 主要 目标 是 使 得 与 过 程 调 用 有 关 的 寄存 器 保护 和 恢复 的 开销 最 小 化 。 它 通 
过 将 (15.4.2 节 描述 的 ) 收 缩 包 装 和 调用 图 的 后 序 遍 历 结合 到 一 起 来 做 到 这 一 点 ， 其 中 调用 图 在 
调用 点 顾及 了 被 调用 过 程 寄存 器 的 用 法 。 因 为 对 于 多 数 调用 而 言 ， 调 用 过 程 和 被 调用 过 程 都 是 
可 见 的 ， 这 种 方法 能 够 传递 参数 至 任意 寄存 器 。 它 假定 所 有 寄存 器 都 是 调用 者 保护 的 ， 并 且 在 
调用 图 上 尽 可 能 远 地 推 迟 寄存 器 的 保护 和 恢复 。 

第 三 种 方法 由 Steenkiste 和 Hennessy[SteH89] 开 发 ， 使 用 与 Wall 类 似 的 方法 分 配 寄存 器 ， 不 
过 是 在 编译 时 进行 的 。 它 是 为 像 Lisp 这 样 的 语言 而 设计 的 ， 这 种 语言 的 程序 典型 地 由 许多 小 过 
程 组 成 ， 这 导致 过 程 间 寄存 器 分 配 特 别 重要 。 它 在 其 可 知 的 范围 内 对 调用 图 做 深度 为 主 遍历 ， 
并 利用 调用 图 的 不 同 子 树 中 的 过 程 可 以 共享 相同 的 寄存 器 这 一 原理 ， 以 及 在 每 一 个 调用 点 可 得 
到 的 关于 被 调 过 程 寄存 器 用 法 的 信息 ， 自 下 而 上 地 分 配 寄存 器 。 这 种 方法 很 可 能 在 分 配 过 程 的 
某 个 点 上 用 尽 所 有 的 寄存 器 ， 此 时 ， 分 配 程序 简单 地 切换 成 在 过 程 人 口 保护 并 在 过 程 出 口 恢复 
的 标准 过 程 内 寄存 器 分 配 程序 ; 对 递归 调用 也 用 同样 的 方法 来 处 理 。 


19.7 全 局 引用 的 聚合 


另 一 种 可 以 在 连接 时 做 的 过 程 间 优 化 是 全 局 引用 的 聚合 。 由 于 RISC 体 系 结构 缺乏 用 单条 
指令 指明 一 个 32 位 地 址 的 手段 ， 它 常常 用 两 条 指令 来 引用 在 任意 地 址 的 数据 9 ， 例 如 一 个 全 局 
变量 。 全 局 引用 的 聚合 (aggregation of global reference) 能 够 提供 一 种 手段 使 这 种 开销 由 多 个 
引用 来 分 摊 ， 从 而 显著 地 减少 这 种 开销 。 对 于 CISC 体 系 结构 ， 这 可 以 缩短 要 用 到 的 位 移 ， 并 

减少 目标 代码 的 大 小 。 

这 种 技术 是 简单 的 一 它 实质 上 需要 做 的 是 ， 将 全 局 数据 集中 到 一 个 可 以 用 较 短 的 位 移 来 
引用 的 区 域 中 ， 这 个 位 移 由 存放 在 寄存 器 中 的 值 确定 。 为 了 执行 这 种 聚合 ， 我 们 必须 在 编译 期 
间 保留 一 个 寄存 器 (或 一 个 以 上 的 寄存 器 )， 这 个 寄存 器 通常 称 为 全 局 指针 《global pointer) 
或 gp (参见 5.7 节 )。 我 们 扫描 完整 的 目标 模块 ， 寻 找 那 种 表示 访问 全 局 变量 的 指令 模式 。 对 于 
32 位 的 RISC 系 统 ， 这 涉及 到 寻找 lui (就 MIPS 而 言 )、sethi (就 SPARC 而 言 ) 等 指令 ， 这 种 
指令 其 后 跟 有 一 条 使 用 由 1ui、sethi 等 设置 的 寄存 器 进行 取 数 或 存 数 的 指令 。 我 们 将 被 存 取 
的 数据 项 (可 能 还 有 其 初 值 ) 集中 到 一 起 ， 并 修改 在 存 取 指令 中 使 用 的 地 址 为 引用 相对 全 局 指 


日 ”对 于 64 位 的 RISC 体 系 结构 ， 这 个 问题 更 严重 。 在 这 种 机 器 上 ， 对 于 同一 任务 可 能 需要 4 到 5 条 指令 。 
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针 的 位 移 。 在 这 一 过 程 中 ， 我 们 删除 计算 地 址 高 部 的 多 余 指 令 ， 并 在 需要 时 重 写 剩余 的 指令 以 
修复 分 支 的 位 移 和 由 于 这 条 已 删除 指令 而 改变 的 任何 其 他 指令 。 

一 种 更 精致 的 全 局 引用 聚合 方法 是 对 收集 的 全 局 数据 按 大 小 排序 ， 以 便 使 得 可 通过 全 局 指 
针 引 用 的 数据 项 数 最 大 化 。 


19.8 过程 间 程序 管理 中 的 其 他 主题 


那 种 管理 过 程 间 关系 的 程序 设计 环境 (也 称 之 为 大 规模 程序 设计 ) 使 得 编译 有 可 能 做 一 系 
列 的 优化 课题 ,其 中 一 些 如 前 所 述 ， 另 一 些 则 涉及 其 他 方面 。 尽 管 后 者 中 没有 特别 困难 的 ， 但 
确实 需要 对 它们 引起 注意 。 其 中 有 一 些 已 经 在 文献 中 有 所 讨论 ， 而 另 一 些 仅仅 在 实验 或 实际 程 
序 设计 环境 中 被 提 及 。 其 中 最 重要 的 一 些 是 : 

1. 名 字 的 作用 范围 : 确定 哪些 模块 由 于 全 局 变量 名 字 的 改变 而 受到 了 影响 ， 以 及 对 它们 产 
生 的 是 什么 影响 ， 例 如 是 否 需 要 重新 编译 ; 

2. 重新 编译 : 确定 什么 时 候 改变 一 个 模块 会 需要 重新 编译 ， 以 及 需要 重新 编译 的 模块 的 最 
小 集合 ; 

3. 同一 模块 (或 库 ) 中 例 程 之 间 的 连接 和 共享 对 象 的 连接 : 确定 什么 时 候 一 个 共享 对 象 已 被 
重新 编译 过 ， 以 及 它 对 用 到 此 模块 的 那些 模块 有 些 什么 影响 ; 我 们 在 5.7 节 曾 讨论 过 这 一 问题 
的 某 些 方面 。 

Hall 在 她 的 博士 论文 中 研究 了 其中 的 一 一 些 课题 ， 以 及 其 他 一 些 过 程 间 程序 管理 的 课题 
[Hall91]. 


19.9 小 结 


本 章 我 们 讨论 了 过 程 间 控 制 流 、 数 据 流 和 别名 分 析 ， 以 及 过 程 间 信 息 对 全 局 和 过 程 间 优 化 
的 应 用 。 我 们 从 Richardson 和 Ganapathi 的 关于 过 程 间 分 析 可 能 是 不 值得 努力 的 研究 开始 ， 然 后 
集中 讨论 了 所 需要 的 分 析 手 段 ， 以 及 通常 值得 进行 过 程 间 分 析 和 优化 的 方面 。 

我 们 已 看 到 ， 对 于 一 个 用 相对 质朴 的 语言 (如 Fortran) 书写 的 完整 程序 ， 如 果 它 是 一 次 提 
交 给 编译 器 的 ， 则 构建 程序 的 调用 图 是 一 件 容易 的 事 ; 如 果 是 分 开 编译 ， 则 要 困难 一 些 。 对 于 
含 过 程 值 变量 和 递归 的 程序 ， 例 如 PL/I 或 C， 构 建 程序 的 调用 图 是 PSPACE 困 难 的 。 

我 们 区 分 了 可 能 与 一 定 信息 、 流 敏感 和 流 不 敏感 信息 ， 并 了 解 到 精确 地 计算 流 敏 感 和 一 定 
信息 其 代价 可 能 非常 昂贵 ， 一 般 是 NP 完 全 或 co-NP 完 全 的 。 因 此 ， 我 们 关注 的 是 流 不 敏感 可 能 
数据 流 问 题 ， 如 MOD， 和 某 些 代价 较 小 的 流 不 敏感 一 定 问题 ， 如 过 程 间 常 数 传播 。 它 们 有 助 
于 使 过 程 适应 常数 值 参 数 ， 并 且 对 指导 过 程 集成 也 有 帮助 。 

我 们 也 讨论 了 若干 种 过 程 间 优 化 ， 主 要 是 过 程 间 寄 存 器 分 配 和 全 局 引用 聚合 ， 这 两 种 优化 都 
是 在 连接 时 进行 的 。Srivastava 和 Wall 的 工作 已 证 明 ， 很 多 标准 的 优化 都 很 有 可 能 在 连接 时 进行 。 

在 这 些 过 程 间 的 优化 中 ， 对 于 多 数 程序 ， 过 程 闻 寄 存 器 分 配 和 常数 传播 较 重 要 ， 而 全 局 引 
用 聚合 的 重要 性 相对 要 小 一 些 。 但 是 ， 过 程 间 分 析 带 来 的 好 处 主要 是 : 由 于 它 缩小 了 被 调用 过 
程 可 能 影响 的 范围 ， 从 而 改善 了 过 程 内 优化 的 质量 。 

最 后 ， 我 们 提出 了 在 那 种 管理 大 规模 程序 设计 的 程序 设计 环境 中 ， 最 适合 过 程 间 优 化 自动 
完成 的 若干 问题 ， 如 作用 域 、 重 新 编译 以 及 共享 对 象 的 连接 。 

我 们 按 图 19-43 所 示 的 优化 执行 顺序 来 放置 过 程 间 优 化 ， 在 B 框 内 增加 了 过 程 间 常 数 传播 
(位 于 过 程 内 相同 优化 遍 之 前 ) 以 及 过 程 特殊 化 和 过 程 克 隆 。 显 然 ， 仅 当 过 程 间 常 数 传播 已 生 
成 有 用 的 结果 时 ， 我 们 才 做 后 面 的 稀有 条 件 常数 传播 遍 。 
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数组 引用 的 标量 替换 
数据 高 速 缓存 优化 


过 程 集成 
尾 调用 优化 ， 包 括 尾 递归 删除 
聚合 量 的 标量 替代 
稀有 条 件 常数 传播 
过 程 间 常 数 传播 

过 程 特殊 化 和 克隆 
稀有 条 件 常数 传播 
































全 局 值 编号 
局 部 和 全 局 复写 传播 
BRE HR 

JERI 


C1 


局 部 和 全 局 公共 子 表 达 式 删除 
循环 不 变 代码 外 提 


BB TUR BR 





















死 代 码 删除 
代码 提升 

归纳 变量 强度 前 弱 

线性 函数 测试 替代 

归纳 变量 消除 

不 必要 边界 检查 删除 
控制 流 优化 


C4 





尾 融合 

分 支 优化 和 条 件 传送 

死 代码 删除 

软 流水 ， 附 带 循环 展开 、 变 量 扩张 、 
寄存 器 重 命名 和 层次 归 约 

基本 块 和 分 支 调 度 1 

图 着 色 寄存 器 分 配 

基本 块 和 分 支 调度 2 

过 程 间 指 令 高 速 缓存 优化 

指令 预 取 

数据 预 取 

分 支 预测 


a a 
过 程 间 指令 高 速 缓存 优化 


图 19-43 优化 顺序 ， 过 程 间 优 化 用 黑体 字 标 明 
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我 们 将 过 程 间 寄存 器 分 配 和 全 局 引用 聚合 放 在 E 框 内 ， 这 两 种 优化 最 好 是 当 所 有 过 程 的 代 
码 都 已 提交 时 在 装载 模块 上 来 进行 。 


19.10 进一步 阅读 


Richardson 和 Ganapathi 关 于 过 程 间 优化 效果 的 研究 见 [RicG89a]、[RicG89b] 和 [Rich91]。 过 
程 间 优化 可 能 更 有 助 于 并 行 编译 器 的 根据 是 在 [Allc86] 和 [Call88] 中 找到 的 。 

Weihl 关 于 构造 含 过 程 变量 的 递归 程序 的 调用 图 是 PSPACE- 困 难 的 证 明 是 在 [Weih80] 中 找到 
的 。[Weih80] 中 讨论 了 计算 过 程 副作用 较 困 难 问 题 中 的 某 些 问题 ， 而 另 一 些 问题 仅 在 已 实现 的 
系统 中 被 提 及 ， 这 些 系统 有 ParaFrase[Kuck74] 和 ParaScope[CooH93]。 

Cooper 和 Kennedy 计 算 流 不 敏感 副作用 最 早 的 方法 见 [CooK84]。 但 是 ， 那 种 方法 有 一 个 如 
[CooK88al] 指 明 的 显著 的 缺点 ， 它 声称 可 以 独立 地 解 全 局 变量 和 形式 参数 子 问 题 ， 而 事实 上 ， 
解 形式 参数 问题 必须 先 于 非 局 部 变量 的 处 理 ， 其 方法 由 [CooK88b] 提 出 。Myers 的 计算 流 敏 感 
副作用 方法 的 介绍 见 [Myer81]，Callahan 的 方法 见 [Call88]。 

Callahan、Cooper、Kennedy 和 Torczon 关 于 执行 过 程 间 常 数 传播 的 方法 见 [CalC86]。Grove 
和 Torczon 关 于 转移 函数 和 返回 转移 函数 ， 它 们 的 计算 代价 ， 以 及 它们 所 提供 的 信息 的 讨论 见 
[GroT93]. 

Cooper 和 Kennedy 的 过 程 间 别名 分 析 的 方法 见 [CooK89]。[Deut94] 介 绍 了 一 种 更 强 有 力 的 
方法 。 

介绍 Wall 的 在 连接 时 进行 过 程 间 寄 存 器 分 配方 法 的 论文 是 [Wall86]。 本 章 介绍 的 在 编译 期 
间 进 行 过 程 间 寄存 器 分 配 的 几 种 方法 是 由 Santhanam 和 Odnert [SanO90]. Chow [Chow99]， 以 
及 Steenkiste 和 Hennessy [SteH89] 开 发 的 。 

关于 全 局 引用 聚合 的 讨论 见 [HimC87]、[Hime91] 和 [SriW94]。[SriW94] 还 讨论 了 将 这 种 技 
术 扩 展 到 64 位 RISC 体 系 结构 的 方法 。 

[SriW93] 介绍 了 Srivastava 和 Wall 的 连接 时 优化 的 相关 工作 。 

关于 过 程 间 程 序 管理 或 “大 规模 程序 设计 ”的 问题 ， 有 一 些 在 文献 中 有 所 讨论 ， 例 如 
Cooper、Kennedy 和 Torczon 的 论文 [CooK86] 以 及 Hall 的 论文 [Hall91]， 而 另 一 些 只 在 已 实现 的 
系统 中 被 涉及 ， 这 些 系统 有 ParaFrase 和 ParaScope。 


19.11 练习 


19.1 (a) 写 一 个 程序 ， 它 至 少 包含 5 个 不 同 的 过 程 并 且 含 有 对 它们 的 调用 ， 其 中 至 少 包 
含 一 个 递归 调用 。(b) 对 于 你 的 例子 ， 说 明 图 19-3 中 过 程 Build_Ccall_Graph () 
的 执行 步骤 。 

RSCH 19.2 通过 观察 到 迭代 i 的 LowLink (p) 小 于 或 等 于 迭代 i + 1 的 LowLink (P) 这 一 情况 ， 

用 图 19-18 的 过 程 Compute_GMOD () 和 GMOD_Search () 计 算 GMOD 的 复杂 性 可 
以 减少 到 只 有 原 复杂 性 的 4d 分 之 一 (4d 是 程序 中 过 程 供 套 的 深度 )。 写 出 由 此 产生 
的 这 两 个 过 程 的 代码 。 

19.3 (a) 修 改 19.2.1 节 给 出 的 计算 DMOD 的 方法 使 之 计算 DREF，(b) 并 将 它 应 用 于 图 19- 
10 中 的 程序 。 

19.4 (a) 利 用 转移 函数 和 返回 转移 用 函数 ， 用 公式 写 出 做 调用 点 特殊 的 过 程 间 常数 传播 
分 析 的 ICAN 算 法 ，(b) 将 它 应 用 于 图 19-44 中 的 程序 ， 其 中 halt O 是 一 个 终止 程 
序 执行 的 例 程 。 
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procedure main( ) 
begin 
read(t) 
call f(t) 
call f(2) 
end 
procedure f(b) 
begin 
print (g(b,1)) 
end 
procedure g(x,y) 
begin 
if y > 0 then 
call h(x,y,1) 
x := 2 
else 
call h(3,y,1) 
halt( ) 
fi 
end 
procedure h(u,v,w) 
begin 
if u > w then 
call g(v,-1) 
else 
return w + i 
fi 
end 


图 19-44 对 它 执行 位 置 特 殊 过 程 间 常数 传播 的 一 个 例 程序 
19.5 (a) 构 造 一 个 至 少 含 3 个 例 程 且 至 少 有 一 个 全 局 变量 的 C 程 序 ，(b) 对 它 执行 19.4.2 市 
介绍 的 位 置 特殊 的 别名 分 析 。 


19.6 写 出 一 个 ICAN 例 程 ， 它 以 LIR 过 程 体 作为 输入 ， 并 用 类 似 于 19.6.1 节 讨论 的 那 种 
寄存 器 分 配 注释 标注 它 的 指令 。 ^ |668 
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第 20 章 存储 层次 优化 


本 章 关注 的 主要 是 能 更 好 地 利用 存储 器 层次 , 尤其 是 数据 和 指令 高 速 缓存 的 代码 优化 技术 ， 
同时 也 介绍 一 种 可 改善 数组 元 素 寄 存 器 分 配 的 方法 。 . 

从 最 早 的 计算 机 设计 开始 ， 几 乎 在 所 有 的 系统 中 ， 主 存储 器 和 寄存 器 之 间 就 已 经 有 了 区 别 。 
主 存储 器 一 直 比 寄存 器 集合 要 大 ， 从 它 读 取 和 存储 数据 也 比 对 寄存 器 的 相同 操作 要 慢 。 许 多 系 
统 都 要 求 ， 除 了 取 和 存 之 外 的 所 有 操作 ， 其 操作 数 如 果 不 是 全 部 的 话 ， 至 少 也 要 有 一 个 操作 数 
是 在 寄存 器 中 。 当 然 ， 在 RISC 系 统 中 这 种 做 法 达到 了 极 至 ， 它 要 求 除 了 取 和 存 之 外 的 所 有 操 
作 都 对 寄存 器 中 的 操作 数 来 执行 ， 并 且 操 作 结 果 也 存放 在 寄存 器 中 。 

随 着 时 间 的 推移 ， 处 理 器 的 时 钟 周期 和 访问 存储 器 所 需要 的 时 间 之 间 的 差距 已 增加 到 这 样 一 
个 地 步 ， 以 至 于 当 所 有 的 存 取 操作 都 必须 以 主 存储 器 的 速度 运行 时 ， 它 成 为 了 性 能 降低 的 重要 原 
因 。 而 且 这 种 差距 正在 变 得 更 为 严重 : 主 存 储 器 的 访问 速度 每 年 增长 10%~20%， 而 处 理 器 速度 
的 增长 达到 了 每 年 90% 。 为 了 弥补 这 种 差距 ， 在 寄存 器 和 主 存储 器 之 间 设 计 了 高 速 缓冲 存储 器 ， 
或 简称 高 速 缓存 (cache ) ， 以 减轻 这 种 速度 的 不 匹配 。 高 速 缓存 有 选择 地 复制 主 存储 器 的 某 个 部 
分 ， 这 种 选择 一 般 是 根据 需要 ， 以 硬件 或 者 硬件 和 软件 协同 的 方式 来 确定 的 。 对 一 个 定向 在 高 速 
缓存 中 的 地 址 执行 取 数 : 存 数 或 取 指 令 操作 ， 可 以 从 高 速 缓存 中 得 到 满足 而 不 需要 通过 主 存储 器 
(或 在 存 数 的 情况 下 ， 有 可 能 并 行 存储 到 主 存储 器 中 )， 并 且 在 理想 情况 下 ， 其 结果 的 延迟 不 超过 
处 理 器 的 两 个 时 钟 周期 。 对 于 那 种 具有 暴露 的 或 部 分 暴露 的 流水 线 的 系统 〈 例 如 RISC 和 Intel 386 
体系 结构 的 高 端 实现 ) ， 取 数 指令 和 分 支 指令 的 完成 一 般 需要 两 个 时 钟 周期 ， 但 是 ， 第 二 个 时 钟 
周期 通常 可 用 来 执行 另 一 条 指令 (在 取 数 的 情况 下 ， 这 条 指令 必须 是 不 使 用 所 取 之 值 的 指令 )。 

高 速 缓存 的 效率 取决 于 程序 的 空间 和 时 间 的 局 部 性 性 质 。 如 果 一 个 程序 重复 地 执行 一 个 循 
环 ， 则 在 理想 情况 下 ， 第 一 个 迭代 将 使 它 的 代码 被 取 至 高 速 缓存 中 ， 后 继 的 友 代 从 高 速 缓存 来 
执行 它 ， 而 不 需要 每 次 重新 从 主 存 装 载 。 因 此 ， 第 一 个 迭代 可 能 有 读 指令 到 高 速 缓存 的 开销 ， 
但 后 继 迭 代 一 般 不 会 有。 类似 地 ， 如 果 需 要 重复 地 使 用 一 个 数据 块 ， 理 想 的 是 将 它 取 到 高 速 组 
存 中 ， 然 后 从 高 速 缓存 中 访问 它 ， 同 样 只 在 第 一 次 使 用 它 时 有 将 它 从 主 存 读 到 高 速 缓存 的 开销 。 
另 一 方面 ， 当 代码 和 数据 在 高 速 缓存 中 发 生 冲 突 ， 即 它们 占据 高 速 缓存 中 部 分 相同 的 位 置 时 ， 
或 者 由 于 数据 的 若干 数据 段 被 映射 到 相同 的 高 速 缓存 块 而 导致 数据 本 身 自 相 冲突 时 ， 可 能 会 导 
致 性 能 明显 地 下 降 。 在 最 坏 的 情况 下 ， 对 高 速 缓存 取 数 、 存 数 和 取 指 令 都 不 比 访问 主 存储 器 快 。 

一 个 系统 可 以 有 独立 的 数据 高 速 线 存 (data cache) 和 指令 高 速 缓存 (instruction cache) 
(也 分 别 叫做 D-cache 和 I-cache )， 也 可 以 有 同时 容纳 数据 和 指令 的 合并 的 或 统一 的 高 速 缓存 
(combined or unified cache)。 另 外 ， 具 有 固定 页 面 调度 的 系统 还 包含 了 另外 一 种 高 速 缓存 ， 即 
后 各 转换 缓冲 区 (translation-lookaside buffer) ， 或 简称 TLB ， 它 是 用 来 存放 虚 存 地 址 到 物理 地 
址 转换 信息 (或 反之 ) 的 一 个 高 速 缓存 。 

本 章 从 讲述 一 些 事 例 开 始 ， 这 些 事例 形象 地 描述 了 可 能 的 高 速 缓存 用 法 和 优化 方法 ， 以 及 
它们 的 影响 。 之 后 的 几 节 介绍 指令 预 取 以 及 过 程 内 和 过 程 间 指令 高 速 缓存 的 优化 方法 。 接 下 来 
一 节 介 绍 如 何 使 数组 元 素 利用 寄存 器 分 配 的 优势 ， 后 面 的 几 节 介绍 数据 高 速 缓存 优化 方法 ， 并 
给 出 有 关 的 综述 。 最 后 ， 我 们 讨论 标量 和 面向 存储 器 的 优化 之 间 的 互相 影响 ， 以 及 将 存储 器 有 
关 的 优化 集成 至 激进 优化 编译 器 结构 中 相关 的 问题 。 
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20. 数据 和 指令 高 速 缓存 的 影响 ) 


Bell 报 告 了 手工 转换 数值 密集 型 Fortran 和 C 程 序 ， 以 便 更 好 地 利用 IBM RS/6000 的 流水 线 和 
高 速 缓存 的 效果 。 他 考察 了 性 能 是 如 何 随 着 被 访问 数组 索引 的 步 长 〈stride) 而 变化 的 。 在 一 
个 块 长 为 64 字 节 的 D-cache 中 ， 一 块 可 容纳 8 个 双 精 度 浮 点 值 ， 因 此 D-cache 的 性 能 直接 与 所 使 
用 的 步 长 有 关 。 具 体 地 ， 他 的 数据 表明 ， 对 于 小 于 等 于 32 的 步 长 ， 性 能 随 步 长 增加 的 对 数 而 降 
低 。 对 于 大 于 32 的 步 长 ，TLB 的 缺失 开始 成 为 性 能 降低 的 主要 原因 一 一 当 步 长 是 4096 或 更 大 时 ， 
每 一 个 存储 引用 有 一 个 TLB 缺 失 ， 导 致 性 能 小 于 最 好 性 能 的 3 多 。 

因此 ， 在 存储 器 中 这 样 来 安排 数组 ， 使 得 能 以 尽 可 能 小 的 步 长 来 访问 它们 ， 通 常 是 实现 数 
据 高 速 缓 存 高 性 能 的 关键 。 对 于 那 种 多 次 使 用 一 个 数组 的 代码 而 言 , 达到 这 一 目的 一 种 方法 是 ， 
将 数组 中 要 使 用 的 不 连续 的 数组 元 素 复制 到 另 一 个 数组 的 连续 位 置 ， 从 而 使 得 数据 能 以 步 长 1 
来 访问 ， 最 后 再 将 在 处 理 过 程 中 改变 了 的 数组 元 素 复 制 回去 。 

作为 D-cache 优 化 潜在 影响 的 一 个 例子 ， 考 虑 由 Bell 描 述 的 用 Fortran 写 的 双 精 度 和 矩阵 乘 的 4 
个 版 本 。 这 4 个 版 本 (如 图 20-1 所 示 ) 如 下 : 

a) MM: 标准 教科 书 中 A 乘 以 B 的 三 层 姓 套 循 环 ; 

b) MMT: A 在 主 存 中 被 转 置 ; 

c) MMB: 用 大 小 为 t 的 瓦 片 铺 砌 (tiling) 这 三 个 循环 后 的 结果 ; 

d) MMBT， 同 时 做 循环 铺 砌 和 将 A 转 置 的 结果 。 

Bell 报 告 了 在 IBM RS/6000 Model 530 系 统 上 对 这 4 个 版 本 以 N=50 所 测 得 的 性 能 数据 。 原 
始 版 本 的 性 能 随和 矩阵 的 大 小 和 循环 组 织 而 变化 ， 幅 度 超过 14 倍 ; 而 铺 砌 和 转 置 得 到 的 性 能 接近 
最 大 性 能 ， 并 且 性 能 不 受 数组 大 小 的 影响 。 中 间 这 两 个 版 本 的 性 能 几乎 相同 。 


do i = 1,N 
do j = 1,N 
do k = 1,N 
C(i,j) = C(i,j) 


do i = 1,N 
do j = LN 
do k = 1,N 
Cü,D -cG,p 


“+ ACi,k) * B(k,j) 
enddo 
enddo 
enddo 


+ A(k,i) * B(k,j) 
enddo 
enddo . 
enddo 





a) MM b) MMT 


do j = 1,N,t 
do k = 1,N,t 
do i= 1,N 
do jj = j,min(j+t-1,N) 
do kk = k,min(k*t-1,N) 
Ci, jj) = ca,jp 


do j = 1,N,t 
do k = 1,N,t 
do i = 1,N 
do jj = j,min(j+t-1,N) 
do kk = k,min(k*t-1,N) 
C,jj = CCi,jj) 


+ ACi,kk) * B(kk, jj) 
enddo 
enddo 
enddo 
enddo 
enddo 


+ A(kk,i) * B(kk, jj) 


enddo 
enddo 
enddo 
enddo 
enddo 





c) MMB d) MMBT 


图 20-1 Fortran 的 4 个 矩阵 乘 版 本 : a) MM， 通 常 的 形式 ; b) MMT，A 被 转 置 ; 
c) MMB, ， 铺 砌 j 和 xk 循环，d) MMBT， 同 时 转 置 和 铺 砌 





SEE oe EU | 485 


作为 I-cache 对 性 能 潜在 影响 的 例子 ， 我 们 提供 两 个 实例 。 第 一 个 是 关于 在 这 样 一 个 系统 上 [671] 
编译 Linpack 程 序 的 例子 。 这 个 系统 的 高 速 缓存 块 为 32 字 节 ， 处 理 器 每 个 时 钟 周期 可 以 取 4 条 4 
字 节 的 指令 ， 并 且 每 个 时 钟 周 期 可 流出 3 条 指令 。Linpack 程 序 的 核心 是 saxpy 循 环 。saxpy 循 
环 的 第 一 条 指令 落 在 了 一 个 高 速 缓存 块 的 末尾 ， 因 此 ， 指 令 缓冲 区 6 只 能 取 到 这 一 条 有 用 的 指 
A, 并且 在 循环 体 执 行 的 第 一 拍 ， 只 有 这 条 指令 被 执行 ; 当然 ， 此 循环 的 每 一 个 迭代 都 维持 这 
种 模式 。 
第 二 个 实例 与 SPEC 基 准 测 试 程序 gcc 有 关 。 当 没有 做 Lcache 优 化 时 ， 这 个 程序 频繁 地 遇 
到 百分比 相当 高 的 、 由 于 I-cache 缺 失 导 致 的 停顿 的 时 钟 周 期 ( 约 10% )。 出 现 这 种 现象 的 主要 
原因 是 高 速 缓存 的 能 力 问 题 -一 gcc 有 很 大 的 工作 集 一 一 不 过 利用 下 面 讨 论 的 方法 可 使 它 得 到 
改善 。 这 种 方法 将 每 一 个 过 程 体 中 频繁 执行 的 代码 与 很 少 执行 的 代码 区 别 开 来 。 


20.2 指令 高 速 缓存 优化 


下 面 几 小 节 介绍 改善 指令 高 速 缓存 命中 率 的 若干 种 方法 。 这 些 方法 中 有 两 种 是 过 程 间 的 ， 
一 种 是 过 程 内 的 ， 另 外 的 三 种 既 有 过 程 内 的 特征 ， 也 有 过 程 间 的 特征 。 所 有 这 些 方法 都 尝试 重 
排 代码 以 减少 工作 集 的 大 小 并 降低 冲突 。 
20.2.1 利用 硬件 辅助 : 指令 预 取 


在 各 种 体系 结构 的 许多 实现 中 ， 硬 件 提供 顺序 预 取代 码 的 功能 ， 并 且 在 某 些 情况 下 ， 也 能 
够 从 分 支 下 降 路 径 之 外 的 分 支 路 径 预 取代 码 。 

有 一 些 较 新 的 64 位 RISC， 如 SPARC-V9 和 Alpha， 给 软件 提供 了 指令 预 取 支持 。 这 使 得 程 
序 员 或 编译 器 有 可 能 给 系统 的 I-cache 和 指令 预 取 部 件 提 供 预 取 提 示 ， 以 指出 一 块 代码 或 一 组 代 
码 块 是 程序 不 久之 后 将 需要 的 ， 因 此 应 当 在 有 空闲 的 总 线 周期 时 ， 将 它们 取 到 高 速 缓 在 中 。 例 
如 ， 对 于 SPARC-V9， 流 出 伪 指 令 


iprefetch address 


预 取 给 定 地 址 中 包含 的 代码 块 。 

软件 预 取 主 要 对 第 一 次 要 预 取 的 代码 块 有 用 ; 或 者 是 那 种 重复 使 用 , 并 且 通 过 剖面 分 析 发 现 ， 
当 需 要 它们 时 很 可 能 不 在 I-cache 中 的 代码 块 。 在 第 一 种 情况 下 ， 预 取 指 令 是 否 有 用 取决 于 硬件 是 
否 缺乏 对 顺序 和 分 支 预 取 的 支持 。 一 旦 确定 出 一 个 代码 块 可 由 软件 预 取 获 益 ， 则 在 代码 中 从 此 代 
码 块 将 被 执行 的 那 一 点 回 退 Tw 个 时 钟 周 期 的 位 置 放置 一 条 适当 的 预 取 指 令 ， 其 中 Tw 是 满足 预 (67 
取 需 要 的 时 间 。 如 果 是 否 需要 一 个 代码 块 取决 于 该 块 之 前 ! 个 时 钟 周期 位 置 上 的 一 个 条 件 ， 则 将 
这 条 预 取 指 令 放 置 在 需要 此 代码 的 路 径 上 从 那 一 点 回 退 min(Twwr， 力 个 时 钟 周期 的 代码 位 置 上 。 

18.11 节 讨论 的 分 支 预测 优化 能 够 加 强 指令 预 取 的 效 采 。 


20.2.2 过 程 排序 


一 种 最 容易 应 用 ， 并 且 也 肯定 能 得 到 好 处 的 I-cache 优 化 技术 ， 是 在 连接 时 根据 过 程 之 间 的 
调用 关系 和 使 用 频率 ， 对 构成 一 个 目标 模块 的 那些 静态 连接 子 程序 进行 排序 。 排 序 的 目的 是 在 
虚 存 中 将 子 程序 放 在 它们 的 调用 者 附近 以 减少 页 交换 ， 并 且 使 得 频繁 使 用 的 和 有 关联 的 子 程序 
在 I-cache 中 以 相互 之 间 冲 突 较 小 的 方式 放置 。 这 种 方法 依据 的 假定 是 ， 子 程序 和 它们 的 调用 者 
在 时 间 上 可 能 相互 接近 ， 因 此 应 当 在 放置 时 使 得 它们 在 空间 上 互 不 冲突 。 如 果 可 以 得 到 剖面 分 
析 反 馈 的 信息 ， 应 当 在 这 种 处 理 中 将 它们 考虑 进来 ; 如 果 得 不 到 这 种 信息 ， 可 以 通过 启发 式 来 





N 
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进行 控制 ， 这 种 启发 式 将 相互 频繁 调用 的 子 程序 以 相 邻 的 方式 放置 在 一 起 〈 例 如 ， 内 层 循环 的 
调用 应 当 比 不 在 循环 内 的 调用 的 权重 更 高 )。 

为 了 实现 这 种 想法 ， 我 们 从 无 向 静态 调用 图 开始 ， 图 中 每 一 条 弧 标 有 它 两 端 所 连接 的 两 个 
过 程 之 间 每 一 个 调用 另 一 个 的 次 数 。 之 所 以 使 用 无 向 图 是 因为 ， 在 两 个 过 程 之 间 可 能 存在 两 个 
方向 的 调用 ， 并 且 每 一 个 调用 相应 地 匹配 有 一 个 返回 。 然 后 ， 我 们 逐步 瓦解 这 个 图 ， 每 一 步 选 
择 一 条 具有 最 高 权重 的 弧 ， 合 并 它 所 连接 的 两 个 结 点 为 一 个 结 点 ， 合 并 这 两 个 结 点 相应 的 弧 ， 
并 将 被 合并 缴 的 权重 加 在 一 起 而 计算 出 合并 弧 的 标号 。 在 过 程 的 最 后 排序 中 ， 那 些 被 合并 的 结 
点 相互 放 在 一 起 ， 并 用 原 图 中 的 连接 权重 来 确定 它们 之 间 的 相互 顺序 。 

进行 这 一 处 理 的 ICAN 算 法 是 图 20-2 给 出 的 例 程 Proc_Position()。 我 们 假定 调用 图 是 
连通 的 ; 如 果 不 是 连通 的 ， 即 它 的 某 些 过 程 没有 用 ， 我 们 这 个 算法 则 只 作用 于 包含 根 结 点 的 连 
通 部 分 (至 多 一 个 )。 


ProcSeq = Procedure U sequence of ProcSeq 


procedure Proc.Position(E,weight) returns sequence of Procedure 
E: in set of (Procedure x Procedure) 
weight: in (Procedure x Procedure) 一 > integer 
begin 
T, A := Ø: set of ProcSeq 
e: Procedure x Procedure 
a, emax: ProcSeq 
psweight: ProcSeq —> integer 
max: integer 
for each e € E do 
T := A u= ([e01,e02]) 
psweight([e01,e02]) := weight(e01,e02) 
od 
repeat 
max := 0 
for each a € A do 
if psweight(a) » max then 
emax := a 
max := psweight(a) 
fi 
od 
Coalesce Nodes(T,A,weight,psweight,emaxii,emaxi2) 
until A= 
return Flatten(eT) 
end || Proc.Position 


图 20-2 过 程 排序 算法 


ProcSeq 的 两 元 素 成 员 ， 如 [al, a;] ， 表 示 一 棵 根 不 带 标 号 的 二 又 树 。 我 们 也 使 用 
ProcSeq 的 较 长 元 素 成 员 ， 如 [a, …, a,]， 来 表示 n 个 元 素 的 序列 。 如 果 结 点 pl1 和 p2 之 间 没 有 
相连 的 弧 ， 我 们 定义 weight ( [pl1，p2] ) =0。 国 数 1eft (t) Mright (t) 分 别 返 回 树 的 左 子 树 
METH. BRleftmost (t)Mrightmost (1) 分 别 返 回 树 t 的 最 左 和 最 右 叶 结 点 。 函 数 
maxi (s) 返回 序列 s 中 第 一 个 具有 最 大 值 的 元 素 的 索引 i， 函 数 reverse (s) 颠倒 序列 s 和 它 的 所 
有 子 序列 。 例 如 ，maxi ([3,7,4,5,7])=2, reverse(1, [2,3])=[[3,2],1]。 

图 20-3 给 出 的 函数 Coalesce_Nodes(7T, A, weight, psweight, pl, p2) 将 结 点 p1 和 p2 合 并 为 
一 个 结 点 ， 在 此 过 程 中 同时 调整 T[、A 和 pweight 的 值 。 因 为 我 们 用 两 元 素 的 序列 表示 无 序 的 侦 
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对 ， 并 且 序列 元 素 本 身 也 可 以 是 无 序 偶 对 ， 因 此 我 们 需要 完成 以 下 功能 的 一 些 例 程 ， 这 些 例 程 
对 有 序 偶 对 而 言 是 很 容易 实现 的 。 


procedure Coalesce_Nodes(T,A,origwt ,psweight ,p1,p2) 
T, A: inout set of ProcSeq 
origwt: in ProcSeq 一 > integer 
psweight: inout ProcSeq 一 > integer 
pi, p2: in ProcSeq 
begin 
lpi, rpi, lp2, rp2: Procedure 
p. padd: ProcSeq 
i: integer 
|! select ProcSeqs to make adjacent and reverse one if 
|| necessary to get best order 
lpi := leftmost(pi) 
rpi := rightmost(pi) 
lp2 := leftmost(p2) 
rp2 := rightmost(p2) 
i := maxi([origwt(rpi,1lp2),origwt(rp2,1pi), 
origwt (1p1,1p2) ,origwt (rp1,rp2)]) 
|| form new ProcSeq and adjust weights 
































case i of 
1: padd := [pi,p2] 
2: padd := [p2,p1] 
3: pada := [pi,reverse(p2)] 
4: padd := [reverse(pl) ,p2] 
esac 


T := (T u {padd}) - (pi,p2) 
A := Remove(A, [p1,p2]) 
for each p € T (p * padd) do 
psweight([p,padd]) := 0 
if Member(A,[p,p1]) then 
A := Remove(A, [p, p1]) . 
psweight([p,padd]) += psweight([p,p1]) 
if Member(A,[p,p2]) then 
A := Remove(A, [p,p2]) 
psweight([p,padd]) += psweight([p,p2]) 
fi 
A u= {{p,padd]} 
od 
end || Coalesce_Nodes 


图 20-3 图 20-2 所 使 用 的 结 点 合并 过 程 


1. Same (p1, p2) 返 回 true， 如 果 不 考 虑 顺序 pP1 和 p2 是 相同 的 序列 ; 否则 返回 false。 例 
#, Same({1, [2, 31], [[3,, 2],1]) 返 回 true， 而 Same([1, [2, 31], [[1,2],3]) 返 回 
false。 2 
2. Member (A, (pl, p21 ) 返回 true， 如 果 不 考虑 元 素 硕 序 ，[P1, p21 是 集合 4 中 的 一 个 成 
A; 否则 返回 false。 

3. Remove (A, s) ， 如 图 20-4 所 示 ， 从 A 中 删除 用 Same 0 不 能 与 s 区 别 的 任何 元 素 ， 并 返回 结果 。 

4. Flatten(T), ， 如 图 20-5 所 示 ， 从 左 至 右 亡 历 由 序列 表示 的 二 又 树 ， 并 使 它 变 平 ， 即 构 
造 树 的 叶子 结 点 的 序列 ， 并 返回 此 序列 。 
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procedure Flatten(t) returns sequence of Procedure 
t: in ProcSeq 
begin 
if leaf(t) then 
return [t] 
else 
return Flatten(left(t)) e Flatten(right(t)) 
fi 
end || Flatten 


procedure Remove(A,s) returns Procseq 
A: in set of ProcSeq 


s: in ProcSeq 
begin 
t: ProcSeq 
for each t € T do 
if Same(s,t) then 
A -= {s} 
return A 
fi 
od 
return A 
end || Remove 


图 20-4 ”过 程 排序 算法 中 使 用 的 辅助 例 程 








b) 


ED 


50 
> [P5, [P2,P4]] 
52 






d) 


图 20-5 a) 用 于 过 程 排序 的 例子 ，b) 到 gd) 为 此 流 图 的 前 三 步 转换 





EE e dE TU 489 


作为 过 程 排序 算法 的 一 个 例子 ， 假 设 我 们 从 图 20-$a 中 的 带 权 重 的 无 向 调用 图 开始 。 第 一 
步 ， 合 并 P2 和 P4 形 成 [P2,P4] ， 并 得 到 图 20-Sb。 下 一 步 ， 合 并 P3 和 P6 形 成 [FP3,P6] ， 然 后 
合并 P5 和 [P2,P4] 形 成 [P5, [P2,P4]]， 分 别 得 到 图 20-3c 和 20-5d。 由 这 个 合并 过 程 得 到 的 
单 结 AOV 


[ (P1, [P3, P6], [P5, [P2,P4]]], [P7, P8]] 


BEL VE FM m e ONUS PA. P3、P6、P5、P2、P4、P7、P8 安 排 这 些 过 程 。 注 意 ，P2 和 
P4 已 经 相 邻 放置 ，P3 和 P6 也 这 样 ， 另 外 还 有 P5 和 P2。 


20.2.3 过程 和 基本 块 的 放置 


另 一 种 可 以 与 上 面 介 绍 的 方法 结合 在 一 起 的 I-cache 优 化 方法 需要 修改 系统 的 连接 程序 ， 将 
每 一 个 子 程序 放置 在 I-cache 块 的 边界 。 以 便 允 许 编译 过 程 在 较 后 的 遍 中 安置 频繁 执行 代码 段 
(如 循环 ) 占据 尽 可 能 少 的 高 速 缓 存 块 ， 并 放置 它们 在 高 速 缓 存 块 的 开始 或 接近 开始 的 地 方 ， 
从 而 有 助 于 使 得 I-cache 的 缺失 最 小 , 并 使 得 超标 量 CPU 更 有 可 能 取 到 能 同时 执行 的 完整 指令 组 。 
如 果 多 数 基本 块 都 很 短 ( 比 如 说 ，4 ~ 8 条 指令 )， 这 种 方法 则 有 助 于 使 这 些 基 本 块 的 开始 不 会 
位 于 高 速 缓存 块 的 末尾 。 编 译 器 可 以 不 太 困难 地 插入 收集 这 种 统计 信息 的 计量 桂 ， 由 此 得 到 的 
剖面 分 析 反 馈 信息 则 可 以 用 来 确定 ， 与 简单 地 浪费 代码 空间 和 导致 额外 的 分 支 相 比较 ， 什 么 样 
的 基本 块 进行 这 种 放置 是 重要 的 。 


20.2.4 过 程 内 的 代码 安置 


我 们 这 里 将 介绍 Pettis 和 Hansen [PetH90] 开 发 和 评测 的 一 种 安置 过 程 内 代码 的 自 底 向 上 方 
法 。 这 种 方法 的 目的 是 将 不 频繁 执行 的 代码 (如 错误 处 理 ) 移 到 代码 的 主体 之 外 ， 并 拉 直 代码 
( 即 删除 无 条 件 分 支 指令 ， 并 尽 可 能 使 得 发 生 条 件 转移 的 分 支 走 下 降 分 支 )， 以 便 在 一 般 情况 下 
取 到 I-cache 中 的 指令 实际 被 执行 的 比例 较 高 。 与 过 程 排序 不 同 ， 这 种 处 理 可 以 在 每 一 个 过 程 的 
编译 期 间 进 行 。 为 了 做 到 这 一 点 ， 我 们 假设 在 过 程 的 流 图 中 ， 所 有 的 边 都 已 标 有 它们 的 执行 频 
率 ， 执 行 频率 可 以 通过 剖面 分 析 或 通过 估计 而 得 出 。 这 个 算法 自 底 向 上 搜索 流 图 ， 在 那些 由 于 
它们 之 间 的 边 频繁 执行 而 应 当 作 为 直线 代码 放置 的 基本 块 之 间 建立 一 条 链 。。 一 开始 ， 每 一 个 
基本 块 链 到 它 自 身 。 然 后 ， 在 后 继 的 步 又 中 ， 将 那 种 其 中 一 条 链 的 链 尾 和 另 一 条 链 的 链 头 由 一 
条 具有 最 高 执行 频率 的 边 相 连 的 两 条 链 合并 到 一 起 ; 如 果 具 有 最 高 执行 频率 的 边 不 能 连接 一 条 
链 的 链 尾 和 另 一 条 链 的 链 头 ， 这 两 条 链 就 不 能 合并 。 尽 管 如 此 ， 这 种 边 在 代码 放置 中 也 是 有 用 
的 :这 个 最 高 执行 频率 信息 被 保存 下 来 ， 使 得 当 我 们 假定 这 条 边 是 向 前 分 支 时 ， 如 果 可 能 的 
话 ， 使 其 目标 基本 块 能 够 放置 在 源 基 本 块 之 后 的 某 个 位 置 。 最 后 ， 我 们 放置 基本 块 ， 首 先 选 择 
入 口 所 在 的 链 ， 然 后 根据 链 的 权重 依次 放置 其 他 链 。 过 程 Block_Position(B, E, r, freq) 的 
ICAN 代 码 ， 以 及 它 用 到 的 过 程 Egde_count () 如 图 20-6 所 示 ， 共 中 B 是 结 点 ( 即 基 本 块 ) SE 
合 ，E 是 边 集合 ,，r 是 入 口 结 点 ,freq0 是 映射 边 到 它们 的 执行 频率 的 函数 。 

作为 此 算法 的 一 个 例子 ， 考 虑 图 20-7 中 的 流 图 。 具 有 最 高 执行 频率 的 边 是 从 B1 到 B2 的 边 ， 
因此 ， 形 成 的 第 一 个 序列 是 IB1,B2] 。 下 一 个 有 最 高 执行 频率 的 边 是 从 B2 到 B4 的 边 ， 因 此 现 
存 的 序列 扩充 为 [Bl1,B2,B4]; 类 似 地 ， 接 下 来 的 两 步 加 入 entry 和 B8， 得 到 
[entry, Bl,B2,B4,B8]。 下 一 个 执行 频率 最 高 的 边 是 从 B9 到 exit 的 边 ， 因 此 开始 一 个 新 
的 序列 [B9 ,exit]。 后 面 的 几 步 将 这 个 序列 扩充 为 [B6,B9,exit]， 并 形成 了 另外 两 个 序列 


© 这 些 链 与 trace 调 度 (17.5 节 ) 中 的 trace 有 点 相似 ， 但 它 不 需要 修复 代码 。 
日 ”当然 ， 可 以 修改 算法 的 这 一 假设 ， 使 之 对 应 于 条 件 分 支 有 关 的 其 他 假设 。 


675 





490 


[B3,B7] 和 [B51。 接 下 来 我 们 计算 edges O 函数 如 下 : 


edges([entry,B1,B2,B4,B8]) = 2 
edges ([B3,B7]) = 1 

edges [B5]) = 1 

edges ([B6,B9,exit]) = 0 







procedure Block Position(B,E,r,freq) 
returns sequence of Node 
B: in set of Node 
E: in set of (Node x Node) 
r: in Node 
freq: in (Node x Node) —> integer 
begin 
C := Ø: set of sequence of Node 
CR: sequence of Node 
c, cl, c2, clast, cfirst, cnew: sequence of Node 
nch, oldnch, max, fr: integer 
edges: (set of sequence of Node) ——> integer 
e: Node x Node 
for each b € B do 


































C u= ([b]) 
od 
nch := [Cl 
repeat 


oldnch := nch 
{| select two sequences of nodes that have the 
|| highest execution frequency on the edge that 
1| connects the tail of one to the head of the 
|| other | 
max := 0 
for each c1 € C do 
for each c2 € C do 
if ci * c2 & (c1l-1)— (c211) € E then 
fr := freq(cii-1,c211) 
if fr > max then 


max := fr 

Clast := cl 

cfirst := c2 
fi 


fi 
od 





combine selected pair of sequences 
if max > 0 then 

cnew := clast @ cfirst 

C := (C - (clast,cfirst)) u {cnew} 
nch -= 1 


nch = oldnch 
while C * Ø do 


|| find sequence beginning with entry node and 
|! concatenate sequences so as to make as many 
|| branches forward as possible 

CR := 4C 

if r = CRJ1 then 


图 20-6 自 底 向 上 基本 块 安置 算法 
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C -= (CR) 
for each ci € C do 
edges(c1) := 0 
for each c2 € C do 
if ci * c2 then 
edges(ci) += Edge. Count(ci,c2,E) 
fi 
od 
od 
repeat 
max := 0 
for each ci € C do 
if edges(ci) 2 max then 
max := edges(c1) 
c := cl 
fi 
od 
CR @= c 
C -= (c) 
until C = f 
return CR 
fi 
od 
end || Block Position 


procedure Edge Count(ci,c2,E) returns integer 
c1, c2: in sequence of Node 
E: in Node x Node 
begin . 
ct := O, i, j: integer 
for i := 1 to lcil do 
for j := 1 to |c2| do 
if (ciii)—(c21j) € E then 
ct += 1 
fi 
od 
od 
return ct 
end || Edge Count 





图 20-6 (4) 





图 20-7 用 于 过 程 内 代码 安置 的 流 图 例子 
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然后 我 们 排列 这 些 序列 ， 使 得 包含 entry 的 序列 在 前 ， 共 他 三 个 序列 按 edges () 函数 给 出 的 
顺序 跟随 在 后 ， 并 返回 这 个 结果 。 由 此 得 到 的 存储 器 中 的 安排 如 图 20-8 所 示 。 





图 20-8 图 20-7 中 的 流 图 例子 经 过 过 程 内 代码 安置 之 后 


最 后 ， 我 们 通过 插入 和 删除 为 保持 此 流 图 效果 上 与 原 流 图 等 价 而 需要 的 分 支 来 对 代码 进行 
修复 。 这 是 通过 合并 原 基本 块 的 进入 边 、 这 些 基本 块 的 开始 标号 以 及 它们 的 结束 分 支 来 实现 的 。 
注意 , 在 我 们 的 例子 中 , 我 们 已 成 功 地 使 得 除 两 个 循环 闭合 分 支 之 外 的 所 有 分 支 都 是 向 前 分 支 ， 
并 且 已 经 通过 适当 地 安排 基本 块 ， 使 得 9 条 前 向 边 中 的 6 条 边 是 下 降 边 。 


20.2.5 ”过程 分 裂 


一 种 增强 过 程 排序 和 过 程 内 代码 安置 算法 效果 的 技术 是 过 程 分 天 (procedure splitting), 
它 将 一 个 过 程 分 为 主要 成 分 和 次 要 成 分 ， 前 者 包含 频繁 执行 的 基本 块 ， 后 者 包含 诸如 例外 处 理 
之 类 的 很 少 执行 的 基本 块 。 然 后 将 一 系列 过 程 的 次 要 成 分 集中 到 一 个 独立 的 次 要 段 中 ， 从 而 使 
得 主要 成 分 更 紧密 地 在 一 起 。 当 然 ， 过 程 分 裂 需 要 调整 各 个 成 分 之 间 的 分 支 。 决 定 主要 成 分 和 
次 要 成 分 执行 频率 分 界线 的 依据 应 当 是 实验 。 

图 20-9 给 出 了 一 个 过 程 分 裂 的 示意 性 例子 。 标 有 “pb” 和 “s” 的 区 域 分 别 表示 主 要 和 次 要 
代码 。 


Pi P2 P3 P4 Pi P2 P3 P4 
主要 次 要 


图 20-9 a) 一 组 过 程 体 ， 每 一 个 都 分 为 主要 (p) 和 次 要 (s) 成 分 ，b) 每 一 类 成 分 集中 到 一 起 后 的 结果 


20.2.0 过程 内 和 过 程 间 方法 的 结合 

McFarling 的 研究 工作 举例 说 明了 一 种 过 程 内 和 过 程 间 相 结 合 的 I-cache 优 化 方法 ， 他 关注 
的 是 整个 程序 关于 直接 映射 的 Lcache 的 优化 〈 引 文 参 见 20.7 节 )。 他 的 方法 在 目标 模块 上 工作 ， 
并 且 依 赖 于 在 存储 器 内 重 排 指令 和 隔离 某 些 指 令 ， 使 它们 根本 不 会 被 放 到 高 速 缓存 中 。 同 上 面 
讨论 的 方法 一 样 、 利 用 剖面 分 析 的 反馈 信息 可 改善 他 的 算法 效果 。 

McFarling 也 研究 了 过 程 集成 或 内 联 对 I-cache 的 影响 。 显然， 内 联 对 I-cache 的 命中 率 既 可 


FRERE 


493 





有 正面 的 影响 ， 也 可 有 负面 的 影响 。 如 果 内 联 的 过 程 太 多 ， 代 码 体积 可 能 会 有 指数 级 的 增长 ， 
其 结果 会 导致 cache 命中 率 受 损害 ; 另 一 方面 ， 内 联 也 增加 了 局 部 性 ， 因 此 降低 了 LI-cache 的 缺 
失 率 。 他 给 出 了 一 个 模型 用 于 确定 内 联 单个 调用 的 效果 ， 并 给 出 了 内 联 过 程 的 判别 标准 。 


20.9 ”数组 元 素 的 标量 替换 


在 为 循环 生成 较 好 的 目标 代码 时 涉及 到 的 一 个 问题 是 ， 很 少 有 编译 器 尝试 将 那 种 带 下 标的 


变量 分 配 到 寄存 器 中 ， 尽 管 寄 存 器 分 配 通 常 对 标量 非 
党 有效 。 在 深入 考虑 这 种 分 配方 法 的 细节 之 前 ， 我 们 
先 给 出 两 个 例子 说 明 它 究竟 能 有 多 么 重要 。 

;第 一 个 例子 是 图 20-1a 给 出 的 矩阵 乘 代 码 。 如 果 我 
们 如 图 20-10 所 示 ， 用 变量 ct 替代 c (i,j )， 并 将 ct 分 
配 到 寄存 器 中 ， 则 可 以 将 存储 访问 的 次 数 减少 2 - 
(N? 一 N”) 次 ， 或 减少 几乎 近 一 半 。 

第 二 个 例子 是 图 20-11a 中 的 代码 。 对 pb[] 的 引用 可 
以 用 两 个 临时 变量 来 替换 ， 这 导致 了 图 20-11b 中 的 代 
码 ， 它 减少 了 存储 访问 次 数 约 40%。 当 然 ， 如 果 已 知 n 
大 于 或 等 于 1， 则 可 以 删除 其 中 的 if。 


do i = 1,N 
do j - 1,N 
ct = C(i,j) 
do k = 1,N 
ct = ct + A(i,k) * B(X, p 


enddo 
C,j) = ct 
enddo 
enddo 


图 20-10 用 标量 临时 变量 替换 了 图 20-1a 
FPAIC (i, 3) 的 Fortran 和 矩阵 乘 





for i < 1 to n do 
b[i*i] < b[i] + 1.0 
ali] « 2 * b[i] + c[i] 


if n >= 1 then 

to < vb[1] 

ti <- tO + 1.0 

b[2] «€ tt 

afi] < 2 * tO + c[1] 
endif 


t0 < ti 

for i «- 2 to n do 
ti «€ tO + 1.0 
b[i-1] < ti 





endfor ali] «€ 2 * tO + ci] 
tO < ti 


endfor 





a) b) 
图 20-11 a) 一 个 简单 的 HR 循环 ，b) 对 它 使 用 标量 临时 变量 的 结果 


用 标量 替换 带 下 标的 变量 ， 从 而 使 得 寄存 器 分 配对 它们 有 效 的 方法 叫做 标量 替换 
(scalar replacement)， 也 叫做 寄存 器 流水 (register pipelining )。 实 质 上 ， 这 种 方法 是 寻找 重 
用 数组 元 素 的 机 会 并 用 对 标量 临时 变量 的 引用 来 替代 这 些 重用 。 如 我 们 在 前 面 两 个 例子 中 已 
看 到 的 ， 对 某 些 真 实 程序 它 能 产生 引 人 注 目的 速度 改善 。 另 一 个 好 处 是 它 可 以 减少 对 D- 
cache 优 化 的 需要 。 

用 不 含 条件 的 循环 嵌 套 来 解释 标量 替换 是 最 简单 的 。 为 了 描述 它 ， 我 们 需要 定义 依赖 图 中 
循环 携带 的 依赖 边 e 的 周期 (period) ， 记 为 p(e)， 它 是 这 条 边 的 尾 和 头 所 表示 的 带 下 标 变量 引 
用 之 间 的 为 常数 的 循环 迭代 次 数 ; 如 果 这 个 迭代 次 数 不 是 常数 ， 这 个 变量 就 不 能 作为 标量 替换 
的 候选 ， 并 且 其 周期 是 无 定义 的 。 

下 面 ， 我 们 建立 这 个 循环 焦 套 的 部 分 依赖 图 ， 它 只 包括 那 种 有 确定 周期 的 流 依赖 和 输入 依 
dh. 并 且 或 者 是 循环 无 关 的 , 或 者 是 最 内 层 循 环 携带 的 依赖 ; 我 们 排斥 那些 表示 传递 依赖 的 边 。 
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另 一 种 方法 是 ， 我 们 可 以 从 完整 的 依赖 图 开始 〈 如 果 有 的 话 ) ， 然 后 对 它 进行 修剪 。 在 结果 得 
到 的 依赖 图 中 ， 每 一 个 流 依赖 或 输入 依赖 代表 了 一 个 标量 替换 的 机 会 。 

如 我 们 的 例子 表明 的 ， 在 迭代 可 以 开始 重复 之 前 ， 我 们 一 般 需 要 p(e) + 1 个 临时 变量 来 容纳 
由 ple) + 1 个 迭代 生成 的 值 。 因 此 引入 临时 变量 到 tf (,， 并 用 这 些 临 时 变量 替代 数组 元 素 引 用 。 
具体 地 ， 用 加 一 A 四 替代 从 主 存 取 数 组 元 素 A[ 的 引用 ， 而 其 他 对 AL + j * 习 的 引用 则 根据 它 是 使 
用 还 是 定 值 ， 分 别 用 ALi+j* s] 或 A[i + j * s] 替代， 其 中 s 是 连续 访问 A[] 的 跨 步 。 同 时 还 
需 在 最 内 层 循环 体 的 末尾 放置 一 串 赋值 1 tes fi 一 to。 最 后 ， 我 们 必须 正确 地 初始 f， 具 
体 做 法 是 : 从 循环 体 中 剥离 开始 的 剥离 P(e) 个 选 代 9 ， 并 用 赋值 ;~ elem 替 代 和 迭代 i 中 对 该 数组 元 
素 的 第 一 个 取 操 作 ， 用 对 应 的 赋值 替代 其 他 数组 元 素 的 取 和 存 。 现 在 每 一 个 ! 都 是 可 寄存 器 分 配 
的 候选 对 象 ， 并 且 进 一 步 ， 如 果 这 个 依赖 是 循环 无 关 的 ， 它 还 是 可 以 提 到 循环 之 外 的 代码 候选 。 

我 们 第 二 个 标量 替换 的 例子 ( 见 图 20-11 ) 就 是 根据 上 面 描述 的 方法 来 处 理 的 。 

循环 交换 和 循环 合并 〈 参 见 20.4.2 节 ) 等 转换 可 以 使 得 标量 替换 对 于 给 定 的 循环 嵌 套 起 作 
用 ,或 者 使 它们 更 有 效果 。 循 环 交 换 可 以 使 得 循环 携带 的 依赖 是 最 内 层 循 环 携带 的 依赖 ， 从 而 
可 以 增加 标量 替换 的 机 会 。 关 于 它 的 例子 参见 图 20-12。 

for i €- 1 to n do for j © 1 to n do 


for j < 1 to n do for i < 1 to n do 
a[i,j] «- b[i] + 0.5 a[i,j] < bli} + 0.5 


a[i*t1,j] < bli] - 0.5 a[i*1,j] «- b[i] - 0.5 
endfor endfor 
endfor endfor 


2) b) 





图 20-12 a) 两 层 嵌 套 的 HIR 循 环 ，b) 交换 这 两 个 循环 的 结果 


循环 合并 可 以 将 对 一 个 (或 多 个 ) 数组 元 素 的 多 个 使 用 集中 到 一 个 循环 内 ， 从 而 为 标量 替 
换 创造 机 会 。 图 20-13 给 出 了 一 个 例子 。 在 合并 了 这 两 个 循环 之 后 ， 对 a [i] 可 施加 标量 替换 。 
i for i «- 1 to n do 
[i] < a[i] + 1.0 
endfor’ 
for j < 1 to n do 


for i < 1 to n do 
b[i] < ali] + 1.0 
efi] «€ a[(i]/2.0 


endfor 


c[j] € a[j1/2.0 
endfor 





a) b) 
图 20-13 a) 两 个 HR 循环 ，b) 合并 这 两 个 循环 后 的 结果 


标量 替换 可 以 处 理 如 图 20-14 中 C 代 码 所 示 的 那 种 循环 体内 有 iE 的 循环 。 对 于 这 个 例 

子 ， 我 们 使 用 三 个 临时 变量 ,分 别 用 t2 替 代 a [i-2] ， 用 tl 替代 a [i-1] ， 用 t0 替 代 
alil. ， 
此 外 ， 对 铅 套 的 循环 施加 标量 替换 也 可 以 得 到 显著 的 好 处 。 例 如 ， 给 定 图 20-15a 中 的 循环 ， 
我 们 首先 对 最 内 层 循环 中 的 x (i) 执行 标量 替换 ， 得 到 图 20-15b 所 示 的 代码 。 接 下 来 ， 以 (Bl 
意 选 择 的 ) 展开 因子 3 展开 这 个 循环 ， 得 到 图 20-16 所 示 的 代码 ; 然后 用 标量 替换 y [j ] 的 值 ， 
结果 得 到 了 图 20-17 所 示 的 代码 。 


O A—^ NH R (peeling) 开始 的 k 个 迭代 意味 着 用 循环 体 的 k 个 副本 加 上 增 量 和 循环 索引 变量 的 测试 代码 替 
代 循 环 的 前 个 迭代 ， 并 将 它们 直接 放置 在 该 循环 之 前 。 
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t2 = a[0]; 
ti = afi); 
to = a[2]; 
b[2] = (tO + b[2])/2.0; 
tO = 
a[2] 
t2 - 
ti = 
tO = 
b[3] = (tO + b[3])/2.0; 
tO = ti - 1.0; 
a[3] = t0; 
t2 = ti; 
ti = t0; 

for (i = 2; i <= 20; i++) for (i = 4; i <= 20; i++) 
{ bfil = (ali) + bli})/2.0; { tO = alil; : 
b[i] = (tO + b[i])/2.0; 
if (134 2 == 0) if (442 == 0) 
afi] = a[i-2] + 1.0; { tO = t2 + 1.0; 
ali] = t0; 


else 


ali] = a[i-1] - 1.0; 





a) b) 
图 20-14 a) 其 循环 体内 含 控制 流 结构 的 一 个 C 循 环 ，b) 对 af ] 施加 标量 替换 的 结果 


for i< 1 to n do 
xli] «€ 0 
for j < 1 to n do 
xli] € xli] + a[i,j] * y[jl 
endfor 
endfor 


for i < 1 to n do 
to < 0 


for j < 1 to n do 
to < tO + a[i,j] * y[j) 
endfor 
x[i] «€ to 
endfor 





b) 


图 20-15 a) — AM EREHHRKR, b) IARR Px (1) 施加 标量 替换 后 的 循环 
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for i < 1 by 3 to n do 
t0 < 0 
ti < 0 
t2 « 0 
for j < 1 to n do 
tO «€ tO + afi,j] * y[j] 


ti < ti + a[i*1,j] * y[j] 
t2 «€ t2 + a[i*2,j] * y[j] 
endfor 
xli] <- to 
x[i*1] < ti 
x[i^2] < t2 
endfor 
for i < i to n do 
to < 0 
for j < 1 to n do 
to < tO + a[i,j] * yLjl 





# 20 ¥ 


for i < 1 by 3 to n do 
to < 0 
ti «€ 0 
t2 «€ 0 


for j «- 1 to n do 
t4 < yljl 
tO < tO + a[i,j] * t4 
tl € t1 + a[i*1,j] * t4 
t2 <- t2 + a[i*2,j] * t4 


endfor 
x[i] < to 
x[i*1] «- ti 
x[i*2] < t2 
endfor 
for i < i to n do 
to < 0 
for j < 1 to n do 
to < tO + ali, jl * y[j] 


endfor endfor 
x[i] < to xli) € to 
endfor endfor 
图 20-16 用 展开 因子 3 展开 图 20-15b 中 的 图 20-17 用 标量 替换 图 20-16 中 的 内 层 
循环 后 得 到 的 循环 循环 的 y[Jj] 的 结果 


20.4 数据 高 速 缓存 优化 


本 章 余下 的 内 容 几 乎 全 都 集中 在 与 数值 (或 科学 计算 ) 代码 的 高 速 缓存 使 用 优化 相关 的 介 
绍 和 综述 方面 。 所 谓 的 数值 代码 ， 指 的 是 对 大 量 数组 数据 进行 处 理 的 程序 ， 这 种 程序 一 般 是 
(但 不 总 是 ) 用 Fortran 编 写 的 浮 点 数值 程序 ， 其 中 大 多 数 具 有 规则 的 数据 使 用 模式 ， 并 且 有 在 
数据 从 高 速 缓 存 中 被 扫 出 之 前 重复 使 用 这 些 数据 的 机 会 。 

我 们 先 从 简要 讨论 数据 的 全 局 安置 开始 。 假 设 我 们 有 一 个 可 用 于 分 析 和 转换 的 完整 程序 ， 
因此 编译 器 可 以 收集 到 该 程序 每 个 部 分 的 信息 ， 并 在 加 载 映 像 中 用 这 些 信息 来 安排 程序 中 用 到 
的 所 有 数组 ， 使 得 它们 在 数据 高 速 缓存 中 相互 之 间 的 冲突 最 小 。 接 下 来 我 们 概述 单个 过 程 的 数 
据 高 速 缓存 优化 ， 这 种 优化 被 设计 得 实际 可 行 ， 它 清除 从 主 存储 器 取 数 据 到 数据 高 速 缓存 以 及 
从 寄存 器 存储 结果 到 数据 高 速 缓存 的 延迟 。 

如 前 面 指出 的 ， 迄 今 应 用 这 类 优化 能 获得 最 大 成 功 的 代码 是 所 谓 的 数值 或 科学 计算 代码 ， 
这 种 代码 的 大 部 分 执行 时 间 都 花 在 处 理 数值 第 阵 的 贬 套 循环 上 。 这 种 优化 方法 首先 指明 数据 在 
循环 恕 套 中 的 重用 模式 ， 然 后 转换 它们 ， 使 得 这 些 重用 变 成 展示 了 引用 局 部 性 的 模式 ， 即 ， 相 
同 数据 位 置 或 高 速 缓存 块 的 使 用 在 时 间 上 足够 接近 ， 从 而 使 得 它们 的 执行 不 会 导致 在 重用 这 些 
数据 之 前 将 数据 从 高 速 缓 存 扫 出 。 

确定 重用 模式 的 主要 技术 是 依赖 关系 分 析 ， 使 得 要 使 用 的 数据 及 时 地 靠拢 到 一 起 的 方法 是 循 
环 嵌 套 转换 。 在 第 9 章 我 们 曾 给 出 聊 套 循环 中 数组 引用 的 依赖 关系 分 析 概 述 ，20.4.2 节 将 介绍 有 关 
的 循环 转换 。 我 们 然后 将 概要 性 地 给 出 由 Lam、Rothberg 和 Wolf 开 发 的 一 种 方法 〈 文 献 参 见 20.7 节 )， 
这 种 方法 被 设计 成 以 一 种 比 最 优 稍 差 一 点 的 方式 ， 尽 可 能 地 消除 由 于 访问 高 速 缓存 导致 的 延迟 。 

接 下 来 ， 我 们 介绍 数据 预 取 ， 这 是 一 种 隐藏 (而 不 是 清除 ) 部 分 取 数据 延迟 的 方法 ， 这 种 
技术 应 当 在 上 面 讨论 的 循环 转换 之 后 实施 。 
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最 后 ， 我 们 简要 讨论 标量 优化 和 面向 存储 的 优化 之 间 的 相互 作用 ， 对 指针 和 动态 分 配 的 数 


据 对 象 实施 数据 高 速 缓存 优化 的 可 能 性 ， 以 及 在 编译 处 理 的 什么 位 置 集成 I-cache 和 D-cache 优 化 。 
在 讨论 数据 高 速 缓存 优化 之 前 ， 我 们 应 注意 数据 高 速 缓存 十 分 频繁 地 应 用 于 含有 浮 点 计算 
的 循环 ， 并 且 如 12.3.2 节 讨论 的 ， 正 是 这 种 区 域 我 们 必须 特别 小 心 ， 不 要 由 于 重新 安排 它们 而 
导致 计算 结果 的 改变 。 在 12.3.2 节 我 们 曾 指 出 ， 如 果 MF 表 示 给 定 精 度 的 最 大 有 限 浮 点 值 ， 则 
1.0 + (MF-MFP) = 1.0 
而 
(1.0 + MF)-MF = 0.0 


这 也 能 如 下 所 示 地 推广 到 循环 。 令 存储 在 数组 A[1 . .3*n] 中 的 值 是 

A[3*i+1] = 1.0 

A[3*i+2] = MF 

A[3*i+3] = - 
其 中 i=0 直 至 i-n-1。 图 20-18a 和 b) 中 的 HIR 代 码 都 将 0 . ORAS, ific) 中 的 循环 赋 给 s 的 值 
是 1.0，d) 中 的 循环 赋 给 s 的 值 是 n。 


s < 0.0 s «- 0.0 
for i «- 1 to 3*n do for i < 3 to 3*n do 
t « 0.0 
for j © i-2 to i do 


s «- s + Ali] 
endfor 


se 0.0 
for i < 3*n by -1 to 1 do for i < 3*n by -3 to 3 do 
t <- 0.0 
for j < i by -1 to i-2 do 
s € s + Ali] t «€ t + A[j] 


endfor 





c) 
图 20-18 对 同一 个 浮 点 值 序列 求 和 但 产生 不 同 结果 的 HIR 循 环 。 在 a) 和 b) 中 的 循环 
产生 结果 0.0， 而 c) 中 的 循环 产生 1.0，d) 产生 nm 
Fortran 77 标 准 11.10 节 限制 循环 的 计算 顺序 必须 “与 书写 的 顺序 相同 ”， 它 不 允许 上 面 讨论 的 转换 。 
但 是 ， 图 20-18 所 使 用 的 循环 转换 ， 即 循环 逆转 和 铺 砌 ， 在 应 用 于 Fortran 程 序 的 一 些 优化 


器 中 已 十 分 频繁 地 实现 了 。 因 此 ， 告 诉 用 户 它 所 做 的 转换 是 编译 器 的 责任 ， 而 证 实 这 种 转换 不 


会 对 计算 结果 造成 影响 是 用 户 的 责任 。 这 也 强 有 力 地 表明 ， 让 用 户 能 够 控制 那 种 作用 于 特定 循 
环 的 转换 是 必要 的 。 
20.4.1 过 程 间 的 数据 安排 

一 种 改善 数据 高 速 缓 存 用 法 的 过 程 间 的 方法 是 重新 安排 大 数组 对 象 在 存储 器 中 的 位 置 ， 以 
减少 它们 相互 之 间 在 数据 高 速 缓存 中 冲突 的 可 能 性 。 这 种 方法 需要 有 与 数据 对 象 使 用 模式 有 关 
的 信息 ， 并 且 在 重新 安排 时 需要 能 同时 拿 到 所 有 数据 对 象 的 信息 〈 即 ， 如 果 有 的 话 ， 它 们 的 静 
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态 初 值 以 及 对 它们 寻 址 的 代码 )。 这 导致 需要 过 程 间 依赖 关系 分 析 ， 并 且 需 要 能 够 操作 整个 加 
载 映像 ， 因 此 ， 实 际 的 编译 器 不 可 能 在 近期 采用 这 种 方法 。 但 这 种 方法 将 来 可 能 会 成 为 实际 可 
行 的 ，Gupta [Gupt90] 的 工作 证 明了 最 优 数据 重新 安置 问题 是 NP 完 全 的 ， 并 给 出 了 一 种 具有 多 
项 式 时 间 的 算法 ， 在 实际 中 这 个 算法 能 提供 较 好 的 近似 值 。 


20.4.2 循环 转换 


我 们 考虑 在 HIR 的 理想 贱 套 循环 中 带 下 标的 变量 的 使 用 ， 理 想 人 贱 套 循环 是 规范 的 
689| (canonical) 或 正规 形式 (normalized form) 的 循环 8 ， 即 每 一 个 循环 的 索引 都 从 1 开始 ， 以 增 
量 1 变化 到 某 个 值 ， 并 且 只 有 最 内 层 循环 内 有 非 fozr 语 句 的 语句 。 它 简化 了 循环 的 表示 ， 但 并 
不 必须 是 这 样 。 令 
for i < a by b to c do 


statements 
endfor 
是 具有 任意 循环 边界 和 增 量 的 循环 ， 则 
for ii «- 1 by i to n do 
i< a*(ii-1*b 
statements 
endfor 


是 对 应 循环 的 规范 形式 ， 其 中 mn=[c-a+b)/bj。 

循环 转换 所 做 的 工作 包括 交换 两 个 嵌 套 的 循环 ， 逆 转 循环 返 代 执行 的 顺序 ， 将 两 个 循环 的 
循环 体 合并 到 一 起 ， 等 等 。 如 果 选 择 得 适当 ， 它 们 提供 了 在 执行 一 个 循环 供 套 时 ， 既 能 保持 包 
含 它 的 程序 的 语义 ， 又 能 改善 性 能 的 机 会 。 性 能 的 改善 可 能 是 因为 较 好 地 利用 了 存储 层次 ， 使 
得 循环 迭代 可 以 由 若干 个 处 理 机 并 行 执行 ， 使 得 循环 的 迭代 可 以 向 量化 ， 或 者 是 由 于 这 些 因 素 
的 某 种 综合 作用 。 我 们 应 用 循环 转换 的 目的 主要 是 为 了 实现 寄存 器 、 数 据 高 速 缓存 以 及 其 他 级 
别 的 存储 层次 使 用 方面 的 优化 。 如 1.5 节 所 讨论 的 ， 并 行 化 和 向 量化 将 留 给 其 他 书 去 讨论 。 

我 们 涉及 三 种 类 型 的 循环 转换 ， 即 ， 

1. 么 模 转 换 ; 

2. 循环 合并 和 循环 分 布 ; 

3. 循环 铺 砌 (loop tiling). 

Wolf 和 Lam ([WolL91] 和 [Wolf92]) 提 出 了 一 一 种 适合 于 刻画 一 大 类 循环 转换 的 方法 。 他 们 定 
义 了 一 类 所 谓 的 么 模特 环 转换 (unimodular loop transformation) ， 这 类 转换 的 效果 可 以 用 么 模 
矩阵 与 距离 向 量 的 乘积 来 表示 。 一 个 么 模 和 矩阵 (unimodular matrix) 是 一 个 方形 矩阵 ， 它 的 
元 素 都 是 整数 并 且 它 的 行列 式 的 值 为 1 或 -1。 如 我 们 将 看 到 的 ， 循 环 交换 、 更 一 般 的 嵌 套 循环 
的 循环 置换 (loop permutation )、 循 环 倾斜 (loop skewing )、 循 环 逆转 (loop reversal), LAK 
一 系列 的 其 他 有 用 的 转换 都 是 么 模 转换 。 

如 果 一 个 距离 向 量 <i, bui,» 至 少 有 一 个 非 0 元 素 ， 并 且 它 的 第 一 个 非 0 元 素 为 正 ， 则 这 
个 距离 向 量 是 词典 序 为 正 的 (lexicographically positive)。 这 个 定义 可 以 用 一 种 自然 的 方式 扩充 
到 其 他 的 顺序 关系 。 Wolf 证 明了 由 矩阵 U0 表示 的 么 模 转 换 当 作用 于 一 个 具有 词典 序 非 负 的 距离 

向 量 集 合 D 的 循环 典 套 时 是 合法 的 ， 当 且 仅 当 对 于 每 一 个 4eD， 有 ud-0 ， 即 当 且 仅 当 它 将 


© 虽然 我 们 的 循环 原本 都 是 规范 化 的 ， 但 下 面 描述 的 转换 中 有 一 些 ( 例 如 循环 铺 砌 ) 会 产生 增 量 不 为 ! 的 循环。 
尽管 这 种 循环 可 以 转变 成 规范 化 的 形式 ， 但 没有 必要 这 样 做 ， 因 为 它们 表示 的 是 施加 转换 后 的 最 终 状态 。 
© 回忆 9.3 节 距离 向 量 的 定义 。 
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词典 序 为 正 的 距离 向 量 仍 转换 为 词典 序 为 正 的 距离 向 量 时 9。 
我 们 下 面 考虑 关于 么 模 转换 、 它 们 对 应 的 矩阵 以 及 它们 对 循环 媒 套 的 作用 的 一 些 例子 。 
循环 交换 (loop interchange) 是 交换 循环 嵌 套 中 两 个 相 邻 循环 的 媒 套 顺序 的 转换 。 它 是 由 一 
个 单位 矩阵 交换 了 对 角 线 上 相 邻 的 两 个 1 对 应 的 行 和 列 所 得 到 的 矩阵 来 刻画 的 。 例 如 ， 考 虑 图 
20-19 中 的 代码 ， 它 的 距离 向 量 为 < 1, 0> 。 循 环 交 换 和 矩阵 是 


0 1 

[1 
这 个 交换 矩阵 与 距离 向 量 的 乘积 是 

0 1][1] [0 

Hl 
施加 这 个 转换 的 结果 如 图 20-20 所 示 ; 注意 ， 结 果 的 距离 向 量 是 词典 序 为 正 的 ， 因 此 这 个 交换 
合法 。 





for i < 1 to n do for j < 1 to n do 
for j «€- 1 to n do for i < 1 to n do 
a[i,j] < (a[i-1,j] + a[li+t,j])/2.0 a[i,jl < (a(i-1,j] + alit+i,j])/2.0 
endfor endfor 
endfor endfor 
图 20-19 在 这 个 HIR 循 环 伐 套 中 的 图 20-20 图 20-19 中 的 代码 经 循环 交换 之 后 
赋值 有 距离 向 量 <10> 


循环 置换 (loop permutation) 是 循环 交换 的 一 种 推广 ， 它 允许 同时 交换 两 个 以 上 的 循环 ， 
并 且 不 要 求 这 些 循 环 是 相 邻 的 。 例 如 ， 么 模 矩 阵 


Hip 


BARA MRENI I FS — EM SH = TA, 第 二 个 与 第 四 个 交换 。 
循环 送 转 (loop reversal) 逆转 循环 过 代 的 执行 顺序 。 表示 这 种 转换 的 适当 的 逢 阵 是 一 个 
单位 矩阵 ， 但 用 -1 替换 了 其 中 与 被 逆转 的 循环 相对 应 的 1。 例 如 ， 和 拖 阵 


1 0 0 
0 -1 0 
0 0 1 


对 应 于 逆转 三 个 循环 中 中 间 那 个 循环 的 迁 代 方向 ， 假如 我 们 对 图 20- 19 中 的 代码 的 外 层 循 环 施 
行 循 环 逆 转 ， 则 对 应 的 矩阵 向 量 是 : 


-1 0 _f-1 
[jl 
结果 得 到 的 距离 向 量 < -1, 0> 是 词典 序 为 负 的 ， 因 此 这 个 转换 不 合法 。 
循环 倾 儿 (loop skewing) 改变 循环 迭代 空间 的 形状 。 例 如 ， 它 可 以 将 图 20-21a 中 的 循环 


转换 为 图 b) 所 示 的 循环 ， 这 对 应 于 将 迭代 空间 从 图 20-22a 所 示 的 遍历 改 为 图 5) 所 示 的 遍历 。 
这 个 转换 对 应 的 矩阵 是 


oro 
=. OO 
ooo 
oor 


O 注意 ， 么 模 矩 阵 必 定 将 0 向 量 (并 且 只 有 它 ) 转换 为 0 向 量 。 





692 
i 
693 


500 


bi 
它 是 一 个 么 模 矩 阵 。 


for i € 1 to n do 
for j «- 1 to n do 


afi] «€ a[i*j] + 1.0 
endfor 
endfor 


a) 





s 20* 


for i «- 1 to n do 
for j < i+l to itn do 


ali] < a[j] + 1.0 
endfor 
endfor 





b) 


图 20-21 a) 一 个 HR 循环 嵌 套 ，b) 内 层 循环 倾斜 后 的 结果 


j 


1 2 3 4 5 6 7 


O-*O--* 0-270 ! O-#O-# O72 
. GD--9-rO 2 G-0--0-«0 
$0--0:»0 3 Ó--0-«0-*0 
G—O-0-0 + S20-+0-+0 
a) b) 


图 20-22 a) Hi20-21aB[zrs HR GRR BEA IA FC i se, b) 倾斜 后 的 选 代 空间 遍历 


循环 合并 、 循 环 分 布 和 循环 铺 砌 是 三 种 不 是 么 模 转换 的 重要 转换 。 

MASH (loop fusion) 如 图 20-23 所 示 ， 将 两 个 迭代 空间 相同 的 循环 的 循环 体 合并 为 一 个 
循环 。 只 要 这 两 个 循环 具有 相同 的 循环 边界 ， 并 且 只 要 在 已 合并 的 循环 中 没有 因 第 一 个 循环 中 
的 指令 依赖 于 第 二 个 循环 中 的 指令 引起 的 流 依赖 、 反 依赖 和 输出 依赖 (外 层 循 环 不 影响 转换 的 
合法 性 )， 这 两 个 循环 的 循环 合并 就 是 合法 的 。 作 为 例子 ， 对 图 20-24a 的 两 个 循环 应 用 循环 合 
并 ， 得 到 图 c) 中 的 一 个 循环 。 其 中 惟一 的 依赖 关系 是 S2< 1> S1， 因 此 ， 这 个 转换 是 合法 的 。 
另 一 方面 ， 合 并 图 b) 中 的 两 个 循环 得 到 图 d) ， 其 中 惟一 的 依赖 关系 是 S1< 1> S2， 因 此 这 个 合 
并 是 不 合法 的 。 


for i €- 1 to n do 


a[i] «- ali] + 1.0 
endfor 


for j «€- i to n do 
b[j] < alj] * 0.618 
endfor 


a) 





for i < 1 to n do 
ali] « afi] + 1.0 


b[i] < ali] * 0.618 
endfor 





b) 


图 20-23 a) 一 对 HIR 循 环 ，b) 循环 合并 后 的 结果 
4&3& 2^ (loop distribution) 与 循环 合并 正好 相反 。 它 将 含有 多 个 语句 的 循环 分 割 为 两 个 
具有 相同 选 代 空 间 的 循环 ， 使 得 第 一 个 循环 包含 原 循环 中 的 某 些 语 句 ， 第 二 个 循环 包含 另 一些 
语句 。 图 20-23 也 可 以 作为 循环 分 布 的 一 个 例子 ，b ) 是 循环 分 布 之 前 的 情况 ，a) 是 分 布 之 后 
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的 情况 。 如 果 一 个 循环 分 布 不 破坏 原 循环 依赖 图 的 任何 环 路 ， 这 个 循环 分 布 就 是 合法 的 (同样 ， 
外 层 循 环 不 影响 这 种 转换 )。 


for i «- 1 to n do for i < 1 to n do 
ali] < b[il] ali] € b[i] 
endfor endfor 
for i < 1 to n do for i «- 1 to n do 
b[i-1] «€ cíil + 1.5 b[i*1] «- cfi) + 1.5 
endfor endfor 


for i «- 1 to n do for i «- 1 to n do 

ali] < bli] ali] < b[i] 

b[i-1] < cli] + 1.5 b[i*1] €- cli] + 1.5 
endfor endfor 





c) d) 


图 20-24 两 对 HIR 循 环 a) Fb) ， 对 它们 进行 循环 合并 后 的 结果 分 别 如 c) 和 d) 所 示 。 在 合并 
后 的 循环 c) 中 ， 存 在 一 个 依赖 关系 S2<1>S1。 而 在 合并 后 的 循环 d) 中 ， 依 赖 关系 是 
S1<1>S2， 所 以 循环 合并 对 于 a) 中 的 例子 是 合法 的 ， 而 对 于 b) 是 不 合法 的 


48 hg (tiling) 是 一 种 增加 循环 嵌 套 深度 的 循环 转换 。 给 定 一 个 深度 为 "的 循环 伐 套 ， 铺 砌 
可 使 得 它 具 有 从 (na +1) 到 2n 的 任何 一 种 深度 ， 其 体 取决 于 有 多 少 个 循环 被 铺 砌 。 铺 砌 一 个 循环 
就 是 用 两 个 嵌 套 循环 来 替代 它 ， 内 层 循环 (叫做 瓦 片 循环 ) 的 增 量 等 于 原 循 环 的 增 量 ”， 外 层 
循环 的 增 量 等 于 wb-1b + 1， 其 中 wb 和 1b 分 别 是 内 层 循 环 的 上 下 界 ; 铺 砌 从 被 铺 砌 的 这 个 循环 开 
始 向 内 交换 循环 ， 使 得 瓦 片 循环 是 幅 套 中 的 最 内 层 循环 。 瓦 片 循环 的 迭代 次 数 叫 做 瓦 片 大 小 
(tile size )。 例 如 ， 在 图 20-25 中 ， 图 a) 中 的 循环 在 图 b) 中 已 用 大 小 为 2 的 瓦 片 铺 砌 。 
for i < 1 by 2 to n do 


for j < i to min(i*i,n) do 
bli] < a[i]/b[il 


for i «- 1 to n do 
b[fi] < a[il/b[il 


a[i+1] < afi] + 1.0 
endfor 


a[i*1] < a[i] + 1.0 
endfor 
endfor 





a) b) 
图 20-25 a) 一 个 HIR 循 环 ，b) 用 大 小 为 2 的 瓦 片 进行 循环 铺 砌 后 的 结果 


铺 砌 一 个 循环 从 套 中 的 一 个 或 多 个 循环 ， 效 果 上 相当 于 重新 安排 迭代 空间 的 遍历 ， 使 得 它 
由 一 系列 的 小 多 面体 一 个 接 一 个 地 执行 所 组 成 2 。 ROO 20H T VIL 6208 AL T SEDED 21a 
代码 中 的 两 个 循环 得 到 的 结果 。 图 20-27 展 示 了 这 个 结果 的 迭代 空间 遍历 ， 其 中 假定 = 

当 瓦 片 循环 可 以 与 其 他 循环 交换 使 得 瓦 片 循环 是 最 内 层 循 环 时 ， 铺 砌 一 个 循环 EMEA 
法 的 。 特 别 地 ， 铺 砌 一 个 内 层 循环 总 是 合法 的 。 


O 但是， 如 图 20-25b 所 示 ， 有 一 个 min 运 算 符 保证 铺 砌 后 的 版 本 最 后 一 次 通过 外 层 循环 时 执行 适当 的 迭代 次 数 。 

O 在 其 他 文献 中 铺 砌 也 有 另外 的 三 个 名 字 。 它 曾 叫 做 “分 块 ”(blocking ) ， 但 我 们 不 使 用 那个 名 字 ， 因 为 那个 
名 字 在 计算 机 科学 中 至 少 已 有 了 另外 两 种 含义 。Wolf 称 它 为 “成 块 剥 离 和 交换 ”( strip mine and interchange), 
因为 创建 一 个 互 片 循环 导致 划分 一 个 给 定 的 循环 为 一 系列 的 循环 ， 这 些 循环 执行 从 原 循环 “ 谭 离 ”下 来 的 循 
环 。Callahan、Carr 和 Kennedy 称 铺 砌 一 个 最 内 县 循环 为 “展开 并 塞 入 ”(unroll and jam ) ， 因 为 它 可 以 看 成 
是 将 循环 体 展开 若干 次 ， 然 后 将 它们 一 起 “ 寨 人 ”到 一 个 循环 中 。 





EN IA 


for i < 1 by 2 to n do 
for j < 1 by 2 to n do 
for il < i to min(iti,n) do 
for j1 €- j to min(j*i,n) do 


a[ii] € a[ii*ji1] + 1.0 
endfor 
endfor 
endfor 
endfor 


图 20-26 用 大 小 为 2 的 瓦 片 铺 砌 图 20-21a 所 示 的 HIR 循 环 嵌 套 中 两 个 循环 的 结果 








图 20-27 图 20-26 中 已 铺 砌 的 循环 伐 套 的 欠 代 空间 遍历 ， 假 定 z=6 

20.4.3 局 部 性 与 循环 铺 砌 . 

对 于 循环 伴 套 而 言 ， 最 重要 的 使 数据 高 速 缓存 利用 效率 最 大 化 的 技术 是 : 利用 大 于 单个 数 
组 元 素 或 高 速 缓存 块 的 数组 区 域 中 引用 的 局 部 性 。 尽 管 在 一 个 给 定 的 循环 伐 套 中 可 能 不 存在 可 
以 利用 的 重用 ， 但 通过 使 其 工作 集中 在 这 些 数组 的 一 些 子 片段 中 ， 它 的 高 速 缓存 使 用 模式 也 仍 
然 可 能 得 到 改善 。 

考虑 图 20-1a 中 矩阵 乘 的 例子 ， 前 面 我 们 已 经 发 现 它 的 任何 循环 顺序 都 是 合法 的 。 我 们 可 
以 将 它 铺 彻 ， 使 它 对 所 希望 的 任意 大 小 的 子 数组 进行 操作 。 如 果 选 择 最 优 的 瓦 片 大 小 ， 则 除 强 
制 的 高 速 缓存 缺失 之 外 , 每 一 个 工作 片段 可 以 在 没有 任何 高 速 缓 存 缺失 的 情况 下 完成 ; 进一步 ， 
如 果 选 择 循 环 结构 中 相互 之 间 最 适当 的 铺 砌 安排 ， 通 过 利用 连续 的 瓦 片 之 间 的 重用 ,我们 甚至 


.可 能 减少 一 个 瓦 片 的 强制 高 速 缓 存 缺 失 的 次 数 。 为 每 一 个 循环 创建 一 个 瓦 片 循环 得 到 图 20-28a 


中 的 代码 。 现 在 ， 因 为 原来 的 循环 可 以 任意 重 排 顺序 ， 故 我 们 可 以 将 所 有 瓦 片 循环 移 到 最 内 层 ， 
如 图 20-28b 所 示 。 结 果 得 到 的 这 个 循环 做 套 对 数组 的 T x T 个 子 片段 工作 ， 它 具有 的 遍历 模式 类 
似 于 图 20-27 所 示 的 模式 ; 当然 ， 对 c(ii jj) 另外 还 可 以 应 用 数组 元 素 的 标量 替换 。 如 果 明 
智 地 选择 了 T， 铺 砌 可 以 使 得 每 一 个 数组 为 执行 给 定 的 计算 所 需要 同时 出 现在 数据 高 速 缓存 中 
的 元 素 较 少 ， 从 而 减少 了 高 速 缓存 冲突 。 
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do i = 1,N,T 
do ii = i,min(i+T-1,N) 
do j = 1,N,T 
do jj = j,nin(j*T-1,N) 
do k = 1,N,T 
do kk = k,min(k+T-1,N) 
CGi,j = CGi,jj) + AGi,kk) * B(kk,jj) 
enddo 


enddo 


enddo 
enddo 
enddo 
enddo 


do i = 1,N,T 
do j = 1,N,T 
do k = 1,N,T 
do ii = i,min(i+T-1,N) 
do jj = j,min(j+T-1,N) 
do kk = k,min(k+T-1,N) 
C(ii, jj) = C(ii, jj) + AGi,kk) * B(kk, 3 
enddo 
enddo 
enddo 
enddo 
enddo 
enddo 





b) 
图 20-28 a) 对 图 20-1a 的 Fortran 和 矩阵 乘 每 一 维 索引 分 片 之 后 ，b) 铺 砌 所 有 循环 后 的 结果 


尽管 铺 砌 在 减少 高 速 缓存 冲突 并 因此 增加 性 能 方面 常常 很 有 价值 ， 但 留 给 了 我 们 三 个 问题 : 
1. 当 循 环 侯 套 不 能 完全 铺 砌 时 会 发 生 什么 情况 ? 

2. 高 速 缓存 的 结构 对 铺 砌 的 效率 有 什么 样 的 影响 ? 

3.. 我 们 怎样 选择 对 给 定 循环 嵌 套 和 循环 边界 最 有 效果 的 瓦 片 大 小 ? 





要 。 考 虑 图 20-29 中 的 HIR 循 环 嵌 套 。 显 然 ， 内 层 循环 不 能 从 铺 砌 得 到 好 处 ， 但 当 数组 a[ ] 的 各 
行 在 高 速 缓存 中 可 能 相互 发 生 冲 突 时 ， 铺 砌 外 层 循环 将 得 到 好 处 。 置 换 图 20-29 中 的 这 两 个 特 
环 将 产生 一 个 只 铺 砌 最 内 层 循环 而 获 益 的 例子 。 另 一 方面 ， 我 们 可 能 有 一 个 循环 供 套 ， 它 的 迭 
代 空 间 有 几 个 方向 很 大 ， 但 它 的 有 些 循 环 却 不 能 置换 ， 因 而 不 能 实行 铺 砌 。 但 是 我 们 至 少 可 以 
铺 砌 那些 可 以 置换 到 最 内 层 的 循环 ， 并 且 这 样 做 一 般 可 以 获得 性 能 的 改善 。 


for i © 1 to N do 
for j €- 1 to 3 do 


a[i,j]l < (afi-1,j-1] + a[i,j] + a[N+1-i,i+1])/i 
endfor 
endfor 





图 20-29 两 个 循环 中 至 多 一 个 循环 可 能 从 铺 砌 获 益 的 HIR 例 子 
数据 高 速 缓存 的 组 织 结构 对 铺 砌 的 整体 效果 ， 以 及 对 给 定 大 小 循环 的 具体 瓦 片 大 小 的 效果 
可 造成 戏剧 性 的 差别 。 假 设 我 们 有 一 个 直接 映射 的 高 速 缓存 和 某 个 具体 的 循环 媒 套 。 尽 管 这 个 
高 速 缓存 可 能 大 得 足够 容纳 大 部 分 要 处 理 的 数据 ， 但 它 不 能 够 无 冲突 地 在 两 个 不 同 的 数组 内 容 





0 


之 间 , 或 者 甚至 在 同一 个 数组 的 两 个 部 分 之 间 做 到 这 一 点 。 即 使 我 们 完全 铺 砌 了 这 个 循环 嵌 套 ， 
我 们 也 可 能 会 为 了 避免 冲突 而 需要 有 相对 高 速 缓存 的 大 小 而 言 小 得 令 人 奇怪 的 瓦 片 的 大 小 。 组 
相连 的 高 速 缓存 明显 地 减少 了 这 种 冲突 的 频率 ， 但 我 们 在 单个 循环 媒 套 中 处 理 的 数组 越 多 ， 它 
的 铺 砌 效率 就 越 低 。 

可 证 明 选 择 一 个 与 循环 边界 无 关 的 固定 大 小 的 瓦 片 是 灾难 性 的 ， 尤 其 是 对 于 直接 映射 的 高 
速 缓存 。 循 环 边界 和 瓦 片 大 小 的 特定 组 合 能 非常 有 效 地 减少 冲突 缺失 ， 而 只 要 稍微 地 改变 这 个 
循环 的 边界 哪怕 只 有 约 1 多 到 2% ， 并 且 保 持 瓦 片 的 大 小 不 变 ， 就 可 能 显著 地 增加 冲突 ， 并 使 性 
能 有 较 大 比例 的 降低 。 因 此 ， 关 键 是 应 当 人 允许 瓦 片 的 大 小 随 循环 的 边界 而 变化 ， 并 且 在 进行 选 
择 时 应 当 以 它们 之 间 互 相 作 用 的 经 验 作为 基础 ， 或 者 有 解释 它们 互相 作用 的 理论 ， 或 者 更 理想 
的 是 同时 有 具备 两 者 。 

Wolf ([WolL91] 和 [Wolf92]) 从 理论 和 实践 两 方面 就 选择 瓦 片 的 大 小 给 出 了 一 个 很 好 的 论 
述 ， 他 也 给 出 了 前 面 所 讨论 情况 的 一 些 例子 。 


20.4.4 利用 硬件 辅助 : 数据 预 取 
有 些 较 新 的 64 位 RISC 一 一 如 Alpha、PowerPC 和 SPARC-V9 一 含有 数据 预 取 指 令 ， 这 种 指 


令 给 数据 高 速 缓存 一 个 提示 ， 指 出 程序 不 久之 后 将 需要 所 指定 地 址 中 包含 的 数据 块 。 例 如 ， 在 


SPARC-V9 中 ， 数 据 预 取 指 令 能 够 指明 预 取 一 块 数据 用 于 若干 次 的 读 或 写 。 这 种 指令 有 如 下 4 
种 类 型 的 含义 : 

1. 若干 次 读 : 预 取 数 据 到 离 处 理 机 最 近 的 D-cache。 

2. 一 次 读 : 预 取 数据 到 一 个 预 取 缓 冲 区 并 且 不 打扰 高 速 缓存 ， 因 为 这 个 数据 只 使 用 一 次 ; 
如 果 这 个 数据 已 在 D-cache， 则 让 它 仍 保留 在 那里 。 

3. 若干 次 写 : 预 取 数 据 到 离 处 理 机 最 近 的 D-cache， 以 准备 写 它 的 部 分 内 容 。 

4. 一 次 写 : 为 号 而 预 取 此 数据 ， 但 如 果 可 能 的 话 ， 以 一 种 不 打扰 D-cache 的 方式 。 

Alpha 的 (fetch 和 fetch_m) 以 及 PowerPC 的 (dcbt 和 dcbtst) 数据 预 取 指令 提示 应 当 
将 包含 给 定 字 节 地 址 的 数据 块 取 到 D-cache 中 分 别 用 于 读 或 写 。 对 于 Alpha， 如 果 要 预 取 的 话 ， 
所 取 的 块 大 小 至 少 是 512 字 节 ， 如 前 一 节 所 讨论 的 ， 它 对 于 某 些 应 用 可 能 太 大 了 。 

注意 ， 预 取 并 不 能 减少 从 主 存储 器 取 数 据 到 高 速 缓存 的 延迟 一 一 它 只 是 通过 使 它 与 计算 重 
登 而 隐藏 这 种 延迟 。 因 此 ， 在 一 定 程度 上 ， 减 少 延 迟 和 隐藏 延迟 这 两 种 操作 是 互补 的 ， 但 我 们 
仍然 应 当 首先 利用 数据 重用 来 减少 延迟 ， 然 后 才 使 用 预 取 。 

预 取 对 于 那 种 连续 访问 很 大 数组 的 循环 是 最 有 用 的 。 对 于 由 单个 基本 块 组 成 的 循环 ， 生成 
预 取 指令 可 以 通过 检测 顺序 访问 模式 来 驱动 ， 并 且 要 预 取 的 地 址 可 以 是 相对 一 个 归纳 变量 的 常 
数 偏 移 。 为 了 确定 预 取 指 令 的 流出 时 机 ， 我 们 按 如 下 方式 来 处 理 。 我 们 定义 下 面 4 个 量 : 

1. Tu 是 循环 的 一 个 迭代 不 做 预 取 所 花 的 拍 数 ， 假 定 所 需要 的 数据 在 高 速 缓 在 中 。 

2. ks 是 从 一 个 迭代 的 开始 到 循环 中 第 一 次 使 用 该 数据 所 间隔 的 拍 数 。 

3. bw 是 数据 预 取 指令 的 流出 延迟 。 

4. Ty 是 数据 预 取 指令 的 结果 延迟 ， 即 ， 预 取 指 令 流出 之 后 tymy + To 拍 ， 数 据 在 高 速 缓 存 
中 可 用 。 | 
则 第 决 的 第 一 次 使 用 在 没有 预 取 的 情况 下 出 现在 第 i + i * 7, 拍 ; 在 有 预 取 时 出 现在 第 tsc + 
i * (Toop t) 拍 ， 其 中 i = 0, 1,2, .….。 为 了 使 得 数据 在 第 ts。 + i * (Too + tr) 拍 时 可 用 ， 它 们 
必须 提前 zw + Twy 拍 被 预 取 ， 或 提前 
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个 迭代 又 Ter mod (Toop + byw) 18. 

例如 ， 假 设 一 个 循环 完成 一 个 迭代 需 20 拍 ， 它 在 循环 中 第 一 次 使 用 高 速 缓存 中 这 个 数据 的 
出 现时 机 是 第 5 拍 。 设 预 取 指令 有 1 拍 的 流出 延迟 和 25 拍 的 结果 延迟 。 则 对 给 定 和 迭代 的 预 取 指 令 
应 当 放 在 比 此 迭代 早 [25A20+1)|]=1 个 迭代 ， 且 早 于 第 一 个 使 用 点 之 前 25(mod 20 + 1) = 4 拍 的 
地 方 ， 或 者 在 早 于 预 取 数据 被 使 用 的 这 个 欠 代 之 前 一 个 迭代 又 1 拍 的 地 方 ， 并 且 预 取 指 令 应 当 
指明 下 一 个 迭代 所 使 用 的 数据 的 地 址 。 如 果 该 数据 的 第 一 次 使 用 出 现在 每 一 个 迭代 的 第 2 拍 ， 
则 预 取 应 当 提 前 一 个 多 代 又 4 拍 ， 即 预 取 指令 应 放置 在 数据 被 使 用 的 这 个 迭代 的 前 两 个 迭代 的 
第 19 拍 之 处 。 : 3 

注意 ， 与 本 章 讨论 的 其 他 面向 D-cache 的 优化 不 同 ， 这 种 优化 要 求 我 们 知道 执行 一 个 循环 
迭代 需要 的 时 钟 周 期 数 ， 因 此 它 需 要 在 低级 代码 上 来 执行 。 另 一 方面 ， 这 种 优化 也 需要 知道 每 
一 个 预 取 的 地 址 是 什么 一 一 这 种 地 址 信息 最 好 是 由 基地 址 加 一 个 由 高 级 代码 得 出 的 下 标 值 而 确 
定 的 ， 然 后 再 传递 给 低级 代码 。 

可 能 出 现 的 一 种 复杂 情况 是 所 预 取 的 数据 块 太 大 ， 以 至 于 预 取 不 是 对 每 一 个 迭代 都 有 用 。 
循环 展开 对 这 种 情形 会 有 所 帮助 一 一 展开 nz 次 使 我 们 可 以 每 个 迭代 流出 一 条 预 取 一 一 但 即使 这 
样 也 可 能 仍然 不 够 ; 在 这 种 情况 下 预 取 需 要 受 一 个 条 件 的 控制 ， 这 个 条 件 检查 归纳 变量 与 高 速 
缓存 块 大 小 求 模 的 结果 值 。 

另 一 种 编译 情形 是 可 能 有 多 个 数组 能 从 预 取 获 益 ， 但 如 果 不 仔细 地 安排 这 些 数组 和 预 取 ， 
它们 则 有 可 能 导致 高 速 缓存 冲突 。 通 过 连接 器 和 编译 器 协同 工作 ， 适 当地 放置 大 数组 于 高 速 组 
存 块 的 边界 ， 可 以 改善 连续 预 取 的 效率 。 

Mowry、Lam 和 Gupta ([MowL92] 和 [Mowr94]) 描述 了 一 种 比 上 面 给 出 的 要 稍微 复杂 点 的 
数据 预 取 方法 。 他 们 评估 了 一 种 与 上 面 的 方法 相似 的 方法 ， 指 出 如 果 所 有 数据 都 预 取 的 话 ， 大 
约 有 60% 的 预 取 是 白费 的 ， 因 为 预 取 占 用 了 CPU、D-cache， 以 及 D-cache 与 主 存 储 器 之 间 的 总 
线 ， 因 此 值得 使 所 需要 的 预 取 尽量 少 。 

他 们 的 方法 集中 在 确定 对 高 速 缓存 行 的 第 一 次 引用 〈 即 那 种 可 能 导致 它 被 读 到 高 速 缓存 的 
引用 ) 和 预 取 谓词 上 ， 预 取 谓 词 确 定 对 于 特定 的 循环 迭代 :， 一 个 数据 是 否 需要 预 取 。 这 个 谓 
词 被 用 来 转换 循环 一 一 如 果 谓 词 是 i = 0， 则 剥离 循环 的 第 一 个 和 迭代， 如果 谓 词 是 ;= 0 (mod n, 
则 以 因子 4 展开 循环 。 接 下 来 他 们 放置 预 取 指令 的 方法 基本 上 如 我 们 前 面 的 描述 类 似 ， 但 只 对 
分 析 已 表明 预 取 是 需要 的 那些 迭代 。 如 果 这 种 循环 转换 导致 代码 变 得 太 大 以 至 于 影响 了 I-cache 
的 性 能 ， 他 们 的 方法 则 抑制 这 种 转换 或 者 插入 使 用 预 取 谓词 的 代码 来 控制 预 取 。 


20.5 标量 优化 与 面向 存储 器 的 优化 


Whitfield 和 Soffa [WhiS90] 以 及 Wolfe [Wolf90] 研 究 了 传统 的 标量 优化 与 较 新 的 并 行 化 或 面 
向 D-cache 的 优化 之 间 的 相互 影响 。 他 们 证 明了 有 些 标量 优化 会 抑制 并 行 化 ， 指 出 优化 的 顺序 
非常 重要 , 并 且 为 了 实现 最 大 性 能 , 优化 的 顺序 需要 随 程序 的 不 同 而 变化 ;而且 在 有 些 情况 下 ， 
执行 某 种 标量 优化 的 逆 优 化 是 使 得 某 些 D-cache 优 化 可 行 的 关键 。 

例如 ，Whitfield 和 Soffa 展 示 了 循环 不 变 代码 外 提 会 使 得 循环 交换 和 循环 合并 不 能 实施 ， 并 
且 Wolfe 还 说 明了 公共 子 表达 式 删 除 可 能 抑制 循环 分 布 。 显 然 ， 从 这 些 结果 可 以 得 出 ， 在 某 些 
实例 中 逆转 这 种 有 抑制 作用 的 转换 ， 可 以 使 得 原本 不 能 进行 的 其 他 优化 能 够 得 以 施行 。 














506 # 20 È 





20.6 小 结 


”本章 讨论 了 利用 存储 层次 结构 ， 尤 其 是 数据 和 指令 高 速 缓存 及 CPU 寄存 器 的 优化 技术 。 

即使 在 最 早 的 计算 机 设计 中 ， 主 存储 器 与 寄存 器 就 有 区 别 。 主 存储 器 比 寄存 器 要 大 且 也 较 
慢 ， 许 多 系统 都 要 求 除了 取 和 存 之 外 的 所 有 操作 ， 至 少 要 有 一 个 操作 数 是 在 寄存 器 中 (在 某 些 
情况 下 要 求 所 有 操作 数 ) ; RISC 系 统 当然 属于 后 一 类 。 

处 理 机 的 时 钟 周 期 和 访问 存储 器 所 需要 的 时 间 之 间 的 差距 已 经 增加 到 了 使 得 现在 多 数 系统 
都 有 位 于 主 存储 器 和 寄存 器 之 间 的 高 速 缓存。 对 一 个 定向 在 高 速 缓存 的 地 址 的 存储 访问 ， 可 以 
从 高 速 缓存 中 得 到 满足 而 不 需要 通过 主 存储 器 (或 在 存 数 的 情况 下 ， 有 可 能 并 行 存储 到 主 存储 
器 中 )。 高 速 缓存 的 效率 取决 于 程序 的 空间 和 时 间 的 局 部 性 性 质 。 在 可 以 依赖 高 速 缓存 的 情况 
下 ,程序 的 运行 速度 由 CPU 和 高 速 缓存 决定 。 如 果 不 能 依赖 它们 ， 取 数 、 存 数 以 及 指令 的 读 取 

Eoo] 都 以 存储 器 的 速度 执行。 

为 了 处 理 这 种 速度 的 不 一 致 ， 我 们 首先 讨论 了 与 指令 高 速 缓存 有 关 的 技术 ; 然后 考虑 了 如 
何 改善 数组 元 素 的 寄存 器 分 配 的 技术 ， 以 及 与 数据 高 速 缓存 有 关 的 技术 。 

与 指令 高 速 缓存 有 关 的 技术 包括 指令 预 取 、 过 程 排序 、 过 程 和 基本 块 的 放置 、 过 程 分 烈 ， 
以 及 过 程 内 和 过 程 间 相 结 合 的 方法 。 预 取 使 我 们 能 够 提示 存储 器 ， 某 一 块 特定 的 代码 不 久 可 能 
会 执行 ， 并 指出 应 当 在 有 空闲 的 总 线 周期 时 将 它 取 到 高 速 缓 在 中。 过 程 排序 按照 能 够 增加 过 程 
引用 的 局 部 性 和 减少 过 程 之 间 相互 冲突 的 方式 在 装载 模块 中 放置 过 程 体 。 过 程 内 代码 安置 或 基 
本 块 排序 尝试 按 这 样 一 种 顺序 来 确定 过 程 中 的 基本 块 , 这 种 顺序 使 得 分 支 尽 可 能 地 取 下 降 路 径 ， 
其 次 使 得 分 支 尽 可 能 是 向 前 分 支 ， 从 而 使 得 分 支 发 生 转移 的 情形 尽 可 能 地 少 。 事 实 上 ， 循 环 展 
开 可 以 看 作 是 基本 块 排序 的 变种 ， 因 为 如 果 我 们 以 因子 mn 展开 一 个 循环 一 为 简单 起 见 ， 设 这 
个 循环 是 单个 基本 块 的 循环 一 则 原来 的 n 个 向 后 分 支 现 在 变 成 只 有 一 个 向 后 分 支 。 过 程 分 烈 
通过 将 过 程 分 为 频繁 执行 的 和 非 频繁 执行 的 代码 段 ， 并 在 装载 模块 中 将 每 一 种 类 型 分 别 集中 到 
一 起 ， 寻 求 进一步 改善 局 部 性 。 最 后 ， 简 要 提 及 了 过 程 内 和 过 程 间 相 结合 的 技术 ， 以 求 得 到 尽 
可 能 大 的 好 处 。 | 

与 I-cache 有 关 的 优化 中 最 重要 的 通常 是 过 程 排序 与 过 程 和 基本 块 放置 ， 其 次 是 指令 预 取 ， 
最 后 是 过 程 分 烈 。 | | 

接 下 来 ， 我 们 集中 讨论 了 改善 数组 元 素 寄 存 器 分 配 的 标量 替换 ， 与 数据 高 速 缓存 有 关 的 技 
术 以 及 数据 预 取 。 数 组 元 素 的 标量 替换 利用 对 数组 元 素 的 连续 多 次 访问 ， 使 得 用 标量 替换 了 的 
数组 元 素 可 以 成 为 寄存 器 分 配 的 候选 ， 并 可 适应 于 其 他 典型 作用 于 标量 的 所 有 优化 。 与 数据 有 
关 的 优化 中 最 重要 的 通常 是 与 数据 高 速 缓存 有 关 的 优化 ， 尤 其 是 循环 销 砌 ， 其 次 是 数组 元 素 的 
标量 替换 ， 最 后 是 数据 预 取 。 

我 们 也 对 数据 高 速 缓存 优化 给 出 了 介绍 和 概述 。 这 是 一 个 在 已 使 用 的 各 种 方法 中 至 今 还 没 
有 一 个 明显 优胜 者 的 领域 ， 尽 管 存在 一 些 处 理 各 种 类 型 问题 的 有 效 方法 。 其 结果 是 ， 我 们 避 开 
对 任何 一 种 方法 的 详细 描述 ， 蔡 代 地 只 是 给 出 对 这 个 问题 的 基本 理解 ， 讲 述 它 与 第 9 章 的 数据 
依赖 内 容 有 怎样 的 关系 ， 并 给 出 一 些 有 效 的 关于 数据 高 速 缓存 优化 候选 方法 的 建议 。 

最 后 ， 我 们 简要 地 讨论 了 标量 和 面向 存储 器 的 优化 之 间 的 相互 影响 。 

大 多 数 关于 存储 层次 的 数据 优化 最 好 在 包含 循环 表示 和 下 标的 高 级 或 中 级 代码 上 来 做 。 因 
此 ， 它 们 被 放置 在 图 20-30 优 化 顺序 图 解 的 A 框 中 。 相 反 ， 数 据 预 取 需 要 插入 到 低级 代码 中 ,但 

Doi 它 使 用 从 高 级 代码 分 析 中 收集 的 信息 ， 因 此 ， 我 们 将 它 放 在 D 框 内 。 
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数组 引用 的 标量 蔡 换 
数据 高 速 缓存 优化 


过 程 集成 
尾 调用 优化 ， 包 括 尾 递归 删除 
聚合 量 的 标量 替代 
稀有 条 件 常数 传播 
过 程 间 常 数 传播 

过 程 特殊 化 和 克隆 
稀有 条 件 常数 传播 


































全 局 值 编号 
局 部 和 全 局 复写 传播 
稀有 条 件 常数 传播 
死 代码 删除 


C1 


常数 代数 化 简 ， 
oe | 包括 重 结合 








局 部 和 全 局 公共 子 表达 式 删除 
循环 不 变 代 码 外 提 





死 代 码 删 除 
代码 提升 

归纳 变量 强度 前 弱 

线性 函数 测试 替代 

归纳 变量 消除 

不 必要 边界 检查 删除 
控制 流 优化 


C4 





REA 

分 支 优 化 和 条 件 传送 
死 代码 删除 

, | 软 流水 ， 附 带 循环 展开 、 变 量 扩张 、 
寄存 器 重 命名 和 层次 归 约 
基本 块 和 分 支 调度 1 

图 着 色 寄 存 器 分 配 
基本 块 和 分 支 调 度 2 

过 程 内 指令 高 速 缓 存 优化 


过 程 间 寄 存 器 分 配 
全 局 引用 聚合 
过 程 间 指令 高 速 缓 存 优化 


图 20-30 优化 顺序 ， 黑 体 字 标 出 了 存储 层次 有 关 的 优化 
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另 一 方面 ， 指 令 高 速 缓存 优化 和 指令 预 取 则 从 编译 处 理 非 常 靠 后 的 阶段 ， 当 已 能 够 很 好 地 
理解 代码 的 最 终 形式 时 得 到 好 处 。 因 此 ， 我 们 将 过 程 内 I-cache 优 化 和 指令 预 取 放 在 D 框 ， 过 程 
间 的 优化 放 在 E 框 。 

这 个 领域 ， 尤 其 是 面向 数据 的 优化 ， 在 下 一 个 十 年 中 将 受到 密切 的 关注 。 处 理 这 个 问题 的 
方法 肯定 会 有 较 大 的 改善 ， 但 是 很 难 精确 地 预测 这 种 改善 会 来 自 哪 一 方面 。 显 然 ， 数 学 分 析 、 
数据 执行 模型 ， 以 及 强化 的 实验 都 将 扮演 一 个 角色 ， 但 是 还 不 清楚 究竟 是 其 中 之 一 还 是 全 部 ， 
抑或 是 另外 的 某 种 或 某 些 见解 会 成 为 这 种 改善 的 关键 原因 。 


20.7 进一步 阅读 


Bell 在 [Bell90] 中 报告 了 他 手工 改写 数值 密集 型 程序 以 便利 用 IBM RS/6000 的 流水 线 和 高 速 
缓存 的 工作 。 

本 章 详细 讨论 的 I-cache 优 化 方法 基于 Pettis 和 Hansen [PetH90] 的 工作 。 [McFa89]. 
[McFa9 1a] #0[McFa91b] 中 介绍 了 McFarling 的 工作 。 

标量 替换 ， 或 称 寄 存 器 流水 ， 是 由 Callahan、Carr 和 Kennedy [CalC90] 开 发 的 。 

Wolfe [Wolf89a] 称 循环 铺 砌 为 “成 块 剥 离 和 交换 ”; Callahan、Carr 和 Kennedy [CalC90] 称 
它 为 “展开 并 塞 入 ”。 

Lam、Rothberg 和 Wolf 介 绍 D-cache 优 化 方法 的 论文 见 [LamR91]、[Wolf92] 和 [WolL91]。 

Gupta [Gupt90] 讨 论 了 安排 数据 以 便 更 好 地 利用 D-cache 的 一 些 全 局 方法 。 

用 向 量 空间 对 应 的 么 模 转 换 来 刻画 一 大 类 循环 转换 的 方法 是 在 [WolL901] 和 [Wolfo2] 中 找到 的 。 

[MowL92] 中 讨论 了 Mowry、Lam 和 Gupta 的 数据 预 取 算法 ，[Mowr94] 进 一 步 对 它 进行 了 评估 。 

Whitfield 和 Soffa， 以 及 Wolfe 对 标量 优化 和 并 行 化 或 D-cache 优 化 之 间 的 相互 影响 的 研究 分 
别 见 [WhiS90] 和 [Wolf90]。 

关于 刻画 递归 数据 结构 和 指针 的 存储 器 使 用 模式 特点 有 关 工 作 的 参考 文献 参见 9.8 节 。 


20.8 练习 


20.1 前 面 几 章 讨论 的 优化 中 ， 哪 些 优化 很 可 能 会 增强 过 程 排序 的 效果 (0,202.21), 
为 什么 ? EE 

20.2 前 面 几 童 讨论 的 优化 中 ， 哪 些 优化 很 可 能 会 增强 过 程 内 代码 安置 的 效果 (参见 20.2.4 
节 )， 为 什么 ? 

20.33 写 出 一 个 执行 循环 内 数组 引用 标量 替换 的 ICAN 算 法 ， 其 中 循环 是 仅 含 一 个 基本 块 的 
循环 。 

20.4 扩充 练习 20.3 的 算法 ,使 它 可 以 处 理 循 环 内 的 非 循 环 控制 流 结构 。 

20.5 给 出 一 个 可 施加 循环 分 布 的 循环 ， 以 及 一 种 导致 这 个 循环 不 能 进行 循环 分 布 的 优化 
的 例子 。 

20.6 给 出 一 个 可 对 内 层 循环 施加 数组 引用 标量 替换 的 双 层 供 套 循环 的 例子 。 如 有 果 展 开 这 
个 内 层 循环 4 次 ， 会 发 生 什么 情况 ? 





第 21 章 编译 器 实例 分 析 与 未 来 的 发 展 趋势 


本 章 我 们 讨论 几 种 商业 编译 系统 ， 并 对 编译 器 未 来 的 发 展 趋势 给 出 几 点 预测 。 这 些 商 业 编 
译 器 覆盖 了 若干 种 源 语言 和 4 种 体系 结构 ， 它 们 在 实现 策略 、 中 间 代 码 结构 、 代 码 生 成 和 优化 
方法 等 方面 具有 广泛 的 代表 性 。 对 每 一 种 编译 器 ， 我 们 首先 给 出 它 所 针对 的 目标 机 体系 结构 的 
一 个 简短 概述 。 

有 些 系 统 ， 如 IBM 用 于 POWER 和 PowerPC 的 XL 编译 器 ， 在 非常 低级 的 中 间 代 码 级 别 进行 
几乎 所 有 的 传统 优化 。 另 一 些 系统 (如 DEC 用 于 Alpha 的 GEM 编 译 器 ) 使 用 中 级 中 间 代 码 ， 而 
其 他 一 些 系统 (如 Sun 的 SPARC 编 译 器 和 Intel 386 系 列 的 编译 器 ) 分 别 在 中 级 中 间 代码 和 低级 
中 间 代 码 上 进行 优化 工作 。 另 外 ，IBM 的 编译 器 甚至 还 包含 了 高 级 中 间 形 式 ， 并 在 其 上 进行 存 
储 层 次 结构 的 优化 。 

在 后 面 的 几 节 中 ， 我 们 使 用 两 个 程序 例子 来 说 明 各 种 编译 器 的 效果 。 第 一 个 例子 是 图 21-1 
中 的 C 函 数 。 注 意 ， 在 内 层 循 环 的 1f 语 名 中 ，kind 的 值 是 常数 RECTANGLE， 因 此 ， 其 中 关于 
它 的 测试 以 及 第 二 个 分 支 都 是 死 代 码 。length*width 的 值 是 循环 不 变量 ， 因 此 对 area 的 累 
jm (=10*length*width) 可 以 用 一 个 乘法 来 完成 。 我 们 预期 这 些 编译 器 会 展开 这 个 循环 若 
干 次 ， 并 且 会 进行 寄存 器 分 配 和 指令 调度 。 如 果 所 有 的 局 部 变量 都 分 配 到 寄存 器 中 ， 就 可 以 不 
需要 为 这 个 函数 分 配 栈 空间 。 另 外 ， 对 process O 的 调用 是 尾 调用 。 
int length, width, radius; 
enum figure {RECTANGLE, CIRCLE}; 
iat area = 0, volume = 0, height; 

enum figure kind = RECTANGLE; 
for (height = 0; height < 10; height++) 
{ if (kind == RECTANGLE) 


{ area += length * width; 
volume += length * width * height; 


1 
2 
3 
4 
5 
6 
7 
8 
9. 


} 
else if (kind == CIRCLE) 
{ area t= 3.14 * radius * radius; 
volume *- 3.14 * radius * radius * height; 
} 
} 
process (area, volume); 


} 





图 21-1 本 章 用 作 例 子 的 一 个 C 函 数 


第 二 个 例子 是 图 21-2 中 给 出 的 Fortran 77 程 序 。 其 中 主 程序 简单 地 给 数组 a O 的 元 素 赋 初 值 ， 
然后 便 调用 sl () s10 中 的 第 二 个 和 第 三 个 数组 引用 所 引用 的 是 同一 个 元 素 ， 因 此 其 地 址 计 
算 应 当 素 属 于 公共 子 表达 式 删除 。s1 0 中 的 最 内 层 循环 应 当 减 少 到 至 多 含 8 条 指令 ， 包 括 取 两 
个 值 、 将 它们 相 加 、 存 储 其 结果 、 更 新 两 者 的 地 址 、 终 止 测试 条 件 以 及 分 支 (终止 条 件 应 当 用 
基于 其 中 一 个 数组 元 素 的 地 址 的 线性 函数 测试 来 修改 )。 对 于 有 存储 器 到 存储 器 的 指令 、 带 地 
址 更 新 的 取 / 存 指令 、 或 比较 然后 分 支 指令 的 体系 结构 而 言 ， 这 个 指令 序列 应 当 更 短 。 我 们 预 
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期 其 中 有 些 编译 器 能 够 对 这 个 循环 的 最 内 层 循环 进行 循环 展开 和 软 流水 。 


integer a(500,500), k, 1 
do 20 k = 1,500 
do 20 1 = 1,500 | 
a(k,1) =k+1 
continue 
call si(a,500) 
end 


1 
2 
3 
4 
5 
6 
7 
8 
9 


subroutine sí(a,n) 
integer a(500,500) ,n 
do 100 i= i,n 
do 100 j = i*i,n 
do 100 k = 1,n 
1 = a(k,i) 
m = a(k,j 
a(k,j) -1*m 
continue 
end 





图 21-2 本 章 用 作 例 子 的 一 个 Fortran 77 程 序 


我 们 也 期 望 这 些 编译 器 中 至 少 有 一 些 可 以 将 过 程 s1 ( ) 集成 到 主 程序 中 。 事 实 上 ， 关 于 如 
何 处 理 这 个 问题 可 有 如 下 4 种 选择 : 

1. 分 开 编译 主 程序 和 s1 (0) ( 即 ， 不 做 过 程 集 成 )。 

2. 集成 sl () 到 主 程序 ， 同 时 也 编译 s1 O 的 一 个 独立 副本 。 

3. 集成 sl () 到 主 程序 ， 同 时 将 s1 () 编译 为 一 个 只 做 返回 的 虚 过 程 。 

4. 集成 sl () 到 主 程序 ， 并 完全 删除 sl ( ) 。 

后 面 两 种 选择 是 合理 的 ， 因 为 这 个 程序 的 整个 调用 图 是 明确 的 -一 - 主 程序 调用 s1 () ， 并 
且 两 者 都 没有 调用 其 他 子 程序 ， 因 此 这 个 程序 不 可 能 存在 另外 的 分 开 编 译 的 模块 对 sil 的 使 用 。 
如 我 们 将 看 到 的 ，Sun 和 Intel 编 译 器 采用 了 第 二 种 选择 ， 但 这 些 编译 器 都 没有 采用 第 三 和 第 四 
种 选择 。 如 果 这 个 过 程 没有 被 内 联 ， 就 应 使 用 过 程 间 常 数 传播 来 确定 n 在 s1 O 中 的 值 是 500。 


21.1 Sun 用 于 SPARC 的 编译 器 
21.1.1 SPARC 体 系 结构 


SPARC 体 系 结 构 有 两 种 主要 的 版 本 ，Version 8 和 Version 9。 相 对 而 言 ，SPARC Version 8 是 
一 种 最 基本 的 32 位 RISC 系 统 。 处 理 器 由 一 个 整数 部 件 、 一 个 浮 点 部 件 和 一 个 可 选 的 (但 从 未 
实现 ) 协 处 理 器 组 成 。 整 数 部 件 包 含 32 个 通用 寄存 器 ， 并 执行 取 、 存 、 算 术 、 逻 辑 、 移 位 、 分 
支 、 调 用 和 系统 控制 指令 。 它 也 计算 整数 和 淫 点 取 和 存 指令 中 的 地 址 (寄存 器 二 寄存器， 或 寄 
存 器 二 位移)。 整 数 寄存 器 由 8 个 全 局 寄存 器 (其 中 r0 总 是 提交 一 个 0 值 并 忽略 对 它 的 写 ) RUE 
二 个 由 24 个 寄存 器 组 成 的 重 肥 窗口 组 成 ， 每 一 个 窗口 由 8 个 in 寄 存 器 、8 个 local 寄 存 器 和 8 个 
out 寄 存 器 组 成 。 寄 存 器 窗口 的 溢出 和 填充 由 操作 系统 通过 响应 自 陷 来 处 理 。 

整数 部 件 实现 了 若干 特殊 指令 ， 如 用 于 支持 动态 类 型 语言 的 带 标志 的 加 、 减 指令 ;控制 多 
处 理 机 中 存储 器 操作 顺序 的 同步 存 指令 ; 以 及 独立 于 调用 和 返回 指令 的 用 于 切换 寄存 器 窗口 的 
保护 和 恢复 指令 。 整数 部 件 具 有 可 由 整数 操作 和 学 点 比较 操作 可 选 设置 的 条 件 码 ， 分 支 指令 用 
这 些 条 件 码 来 决定 是 否 发 生 转 移 。 
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在 体系 结构 上 ，SPARC 的 设计 采用 流水 线 结构 ， 程 序 员 能 见 到 流水 线 的 某 些 特征 。 分 支 和 
调用 指令 含有 一 个 跟随 在 其 后 的 延迟 槽 ， 这 个 延迟 槽 的 执行 在 分 支 转移 发 生 之 前 8 ， 并 且 当 从 
存储 器 取 数 指令 的 下 一 条 指令 使 用 的 是 该 取 数 指令 所 取 的 值 时 ， 会 导致 一 个 互 锁 。 

浮 点 部 件 有 32 个 32 位 的 浮 点 数据 寄存 器 ， 并 且 执行 ANSIIEEE 浮 点 标准 ， 但 该 体系 结构 也 
允许 某 些 由 操作 系统 实现 的 次 要 特征 。 这 些 寄 存 器 可 以 成 对 地 容纳 双 精 度 值 ， 或 4 个 寄存 器 一 
组 地 容纳 四 精度 值 。 整 数 寄存 器 和 浮 点 寄存 器 集合 之 间 不 能 进行 数据 移动 。 浮 点 部 件 执行 取 、 
存 、 算 术 指 令 、 求 平方 根 、 整 数 与 浮 点 之 间 的 转换 ， 以 及 比较 指令 。 

典型 的 SPARC 指 令 有 三 个 操作 数 一 一 两 个 源 操 作 数 和 一 个 结果 操作 数 。 第 一 个 源 操作 数 和 结 
果 操 作 数 几乎 总 是 寄存 器 ， 第 二 个 源 操 作 数 可 以 是 寄存 器 ， 也 可 以 是 小 常数 。 在 汇编 语言 中 ， 操 
作 数 的 顺序 是 第 一 、 第 二 是 源 操作 数 ， 第 三 是 结果 操作 数 。 有 关 SPARC 汇 编 语 言 的 更 多 细节 请 参 
见 附录 A.1。 

SPARC Version 9 是 一 个 与 Version 8 完全 向 上 兼容 的 较 新 的 体系 结构 。 它 将 整数 寄存 器 扩充 到 
了 64 位 ， 但 同时 提供 了 关于 32 位 和 64 位 操作 结果 的 条 件 码 。 带 特权 的 程序 状态 字 中 的 一 位 指出 
虚 地 址 转换 应 当 是 32 位 还 是 64 位 地 址 。 整 数 指令 也 扩充 包含 了 64 位 专用 的 指令 〈 例 如 ， 除 了 
Version 8 的 设置 一 对 寄存 器 的 64 位 取 数 指令 之 外 ， 还 有 取 数 到 一 个 64 位 寄存 器 的 指令 )， 根 据 64 
位 条 件 码 或 根据 寄存 器 中 的 值 进行 转移 的 新 的 分 支 指令 ， 以 及 有 条 件 的 寄存 器 传送 指令 。 这 个 
体系 结构 的 特权 部 分 也 有 重大 的 重新 设计 ， 它 可 以 允许 多 达 4 级 自 陷 ， 并 且 使 得 寄存 器 窗口 的 洲 
出 和 填充 更 快 。 

SPARC 的 实现 经 历 了 先是 用 两 片 门 阵列 ， 并 且 整 数 和 浮 点 部 件 在 不 同 的 芯片 上 (实际 上 是 
与 Version 7 稍 有 不 同 的 体系 结构 )， 到 高 度 集成 的 具有 超标 量 执行 功能 的 单 芯片 设计 的 变化 。 
21.1.2 Sun SPARC 编 译 器 


Sun 为 SPARC 提 供 了 C、C++、Fortran 77 和 Pascal 等 编译 器 。 所 支持 的 C 语 言 是 完整 的 ANSI 
C, C++ 遵循 AT&T 关 于 该 语言 的 规范 ，Fortran 77 支 持 DEC 和 Cray 兼 容 的 特征 ，Pascal 遵 循 
ANSI 标 准 并 具有 与 Apollo 兼 容 的 扩充 。 这 些 编译 器 源 于 
Berkeley 4.2 BSD UNIX 软 件 发 布 版 本 ， 并 在 1982 年 之 后 
由 Sun 开 发 。 原 来 的 后 端 是 用 于 Motorola 68010 的 ， 之 后 
它 被 成 功 地 移植 到 Motorela 系 列 较 后 的 体系 结构 ， 再 又 自动 内 联 程序 
移植 到 Sun 的 SPARC。 全 局 优化 有 关 的 工作 开始 于 1984 可 重 定位 的 aliaser 
年 ， 过 程 间 优化 和 并 行 化 开始 于 1989 年 。 优 化 器 的 结构 目标 模块 
采用 混合 模式 ， 它 有 两 个 优化 器 ， 一 个 用 于 代码 生成 之 
前 ， 另 一 个 用 于 代码 生成 之 后 。 这 4 个 编译 器 共享 它们 
的 后 端 部 分 ， 即 全 局 优化 器 和 包含 后 遍 优化 器 在 内 的 代 可 硬是 位 的 
码 生 成 器 ， 其 结构 如 图 21-3 所 示 。 目标 模块 

前 端的 目标 代码 是 称 为 Sun IR 的 中 间 语 言 ， 这 种 中 图 21-3 ”Sun SPARC 编 译 器 的 结构 
间 语 言 将 程序 表示 成 由 三 元 式 组 成 的 链表 和 表示 说 明 信 
息 的 若干 张 表 ， 三 元 式 表示 可 执行 的 操作 。 图 21-4 给 出 了 由 前 端 生成 的 Sun IR 形 式 的 例子 ; 它 
与 图 21-2 中 第 9~17 行 的 代码 相对 应 。 其 中 的 运算 符 大 部 分 是 不 言 自明 的 ;CBRANCH 运 算 符 测 
试 其 后 的 第 一 个 表达 式 ， 生 成 一 个 1 或 0 作为 结果 ， 并 根据 结果 分 别 选 择 第 二 个 或 第 三 个 操作 数 







(全 局 优化 器 ) 





代码 生成 器 


O 分支 指令 中 的 作废 位 根据 该 分 支 指令 是 否 导 致 分 支 转移 来 规定 是 否 执行 延迟 槽 中 的 指令 。 


~Ê 
oO 
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作为 转移 目的 地 的 标号 

如 果 设 有 打开 优化 选项 ， 则 使 用 yabe (“Yet Another Back End” 的 缩写 ) 代码 生成 器 来 处 
理由 前 端 产生 的 Sun 人 迟 代码 。yabe 的 设计 主要 顾及 代码 生成 的 速度 ， 它 没有 优化 ， 能 产生 可 
重 定位 的 目标 模块 。 如 果 打 开 了 优化 选项 ， 则 将 Sun IR 传 送 给 iropt 全 局 优化 器 和 代码 生成 器 
来 进行 处 理 。 


ENTRY "si_" { IS_EXT_ENTRY,ENTRY_IS_GLOBAL } 
GOTO LAB_32; 
LAB_32: LTEMP.1 = ( .n ( ACCESS V41}); 

i = 1; 

CBRANCH (i <= LTEMP.1, 1:LAB_36, 0:LAB_35); 
.36: LTEMP.2 = ( .n { ACCESS V41}); 

j=i+ 1; 

CBRANCH (j <= LTEMP.2, 1:LAB 41, O:LAB 40); 
.41: LTEMP.3 = ( .n { ACCESS V41}); 

k= 1; 

CBRANCH (k <= LTEMP.3, 1:LAB_46, 0:LAB_45); 
46: 1 = ( .a[k,i] { ACCESS V20)); 

m = ( .a[k,j] { ACCESS V20}); 

*(a[k,j]) = 1 +m ( ACCESS V20, INT }; 
34: k =k + 1; 

CBRANCH (k > LTEMP.3, 1:LAB_45, 0:LAB_46) ; 
45: j=j+1; 

CBRANCH (j > LTEMP.2, 1:LAB_40, 0:LAB_41); 
.40:i-i*1; 

CBRANCH (i > LTEMP.1, 1:LAB.35, O:LAB. 36); 





图 21-4 ”图 21-2 中 Fortran 77£2 589 ~ 17 行 对 应 的 Sun 下 代码 


这 些 编译 器 支持 如 下 4 级 优化 (不 优化 选项 除外 ): 

OL 这 一 级 只 包含 代码 生成 器 中 的 菜 些 优化 部 分 。 

O2 这 一 级 和 其 他 较 高 的 级 别 包含 了 全 局 优化 器 和 代码 生成 器 两 者 中 的 部 分 优化 。 在 级 别 

,含有 全 局 变量 和 等 价 变 量 、 有 别名 的 局 部 变量 、 或 易 失 变量 的 表达 式 都 不 是 优化 的 全 
ws 不 进 和 自动 内 联 软 流水 、 循 环 展开 以 及 早期 的 指令 调度 。 

O3 这 一 级 对 含有 全 局 变量 的 表达 式 进行 优化 , 但 假定 指针 引起 的 潜在 别名 有 最 坏 的 情况 ， 
并 且 不 进行 早期 的 指令 调度 和 自动 内 联 。 

O4 这 一 级 积极 地 跟踪 指针 可 能 指向 哪些 对 象 ， 并 只 在 必要 时 才 作出 最 坏 的 假设 ; 它 依赖 
特定 语言 的 前 端 识 别 潜在 有 别名 的 变量 、 指 针 变 量 和 潜在 别名 的 最 坏 情形 集合 ; 它 也 进行 自动 
内 联 和 早期 指令 调度 。 | 

如 果 选择 了 全 局 优化 ， 优 化 器 驱动 读 一 个 过 程 的 Sun IR， 标 识 基本 块 ， 并 建立 基本 块 的 前 
驱 和 后 继 链表 。 如 果 选 择 了 更 高 级 别 的 优化 〈04)， 自 动 内 联 程序 则 如 15.2 节 描述 的 那样 ， 用 
被 调用 过 程 的 过 程 体 副本 厅 代 对 在 同一 编译 单元 中 的 某 些 子 程序 的 调用 。 之 后 执行 尾 递归 删除 
优化 ， 并 且 为 代码 生成 器 的 优化 过 程 标志 出 其 他 的 尾 调 用 。 由 此 产生 的 Sun IR 送 给 aliaser 处 
理 ，aliaser 使 用 由 特定 语言 前 端 提供 的 信息 来 确定 在 过 程 的 某 点 上 ， 哪 些 变量 集合 可 能 映 
射 到 相同 的 存储 位 置 。 如 前 面 讨论 的 ， 在 使 得 有 别名 的 变量 集合 最 小 方面 ，aliasez 的 激进 
程度 取决 于 所 选择 的 优化 级 别 。 别 名 信息 附加 在 每 一 个 需要 此 信息 的 三 元 式 中 ， 由 全 局 优化 器 
使 用 。 
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除了 并 行 化 程序 做 自己 需要 的 结构 分 析 外 ， 控 制 流 分 析 通 过 标识 必 经 结 点 和 回 边 来 进行 。 
所 有 数据 流 分 析 都 采用 迭代 方式 。 | 

然后 ， 爹 局 优化 器 iropt 处 理 每 一 个 过 程 体 ， 它 首先 计算 附加 的 控制 流 信息 ; 具体 地 ， 在 
此 时 标识 循环 体 , 包括 显 式 的 循环 (例如 Fortran 77 的 Do 循环 ) 和 由 if 和 goto 构 造 的 隐 式 循环 。 
然后 对 过 程 体 施 加 一 系列 的 数据 流 分 析 和 转换 ， 如 果 需 要 的 话 ， 每 一 遍 转换 首先 计算 〈 或 重新 |"09 
计算 ) 数据 流 信息 。 这 一 系列 转换 的 结果 是 该 过 程 的 Sun 下 代码 经 改造 后 的 版 本 。 全 局 优化 器 [710 
依次 进行 下 述 转换 : 

1. 聚合 量 的 标量 替代 和 扩展 Fortran 复 数 算术 运算 为 实数 运算 序列 ; 

2. 基于 依赖 关系 的 分 析 和 转换 ( 仅 03 和 04 级 )， 这 些 分 析 和 转换 将 在 后 面 描述 ; 

3. 数组 地 址 线性 化 ; 

4. 代数 化 简 和 地 址 表达 式 的 重 结合 ; 

5. 循环 不 变 代码 外 提 ; 

6. 强度 削弱 和 归纳 变量 删除 ; 

7. 全 局 公共 子 表 达 式 删除 ; 

8. 全 局 复写 和 常数 传播 ; 

9. 死 代码 删除 。 

基于 依赖 关系 的 分 析 和 转换 遍 是 为 支持 并 行 化 和 数据 高 速 缓存 优化 而 设计 的 ， 它 们 可 以 在 
优化 级 别 选 择 为 03 或 04 时 进行 。 组 成 它 的 步骤 (依次 ) 如 下 : 

1. 常数 传播 ; 

2. 死 代码 删除 ; 

3. 结构 控制 流 分 析 ; 

4. 循环 发 现 (包括 确定 循环 控制 变量 ,循环 下 界 、 上 界 和 增 量 ) ; 

5. 隔离 循环 体内 含 调用 和 过 早出 口 的 循环 ; 

6. 依赖 关系 分 析 ， 使 用 GCD 和 Banerjee-Wolfe 测 试 ， 产 生 方向 向 量 和 循环 携带 的 标量 du 
链 和 ud 链 ; 

7. 循环 分 布 ; 

8. 循环 交换 ; 

9. 循环 合并 ; 

10. 数组 元 素 的 标量 替换 ; 

11. 归 约 识别 ; 

12. 数据 高 速 缓存 的 循环 铺 砌 ; 

13. 用 于 并 行 化 代码 生成 的 效益 分 析 。 

全 局 优化 完成 后 ， 代 码 生成 器 首先 将 输入 给 它 的 Sun 基 代 码 转换 为 所 谓 的 asm+ 表 示 ， 这 
种 表示 由 汇编 语言 指令 加 上 表示 控制 流 和 数据 依赖 信息 的 结构 组 成 。 图 21-5 展 示 了 asm+ 代 码 ， Fu] 
它 对 应 于 图 21-2 中 Fortran 77 8069589 ~ 1247. 由 代码 生成 开始 时 的 扩展 遍 产生 。 我 们 省 略 了 
除 第 一 个 BLOCK 项 之 外 其 他 所 有 BLOCK 项 之 后 的 注释 。 这 些 指令 除 ENTRY 外 都 是 SPARC 的 原 
始 指令 。ENTRY 是 层次 较 高 的 运算 符 ， 它 表示 代码 的 入 口 点 。 注 意 ， 形 如 %rnnn 的 寄存 器 号 表 
示 的 是 符号 寄存 器 。 
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BLOCK: label = si. 
loop level = 0 


expected execution frequency = i 
number of calls within = 0 
attributes: cc_alu_possible 
predecessors 
successors 
ENTRY ! 2 incoming registers 
or *g0, 10,410 
or 4g0,%i1,%i1 
label = .L77000081 
or %g0,%11,%r118 
or %g0,%i0,%ri19 
add %r119,-2004,%r130 
ba .L77000088 
nop 
label = .L77000076 
471125 ,500,%r125 
%r124,1,%r124 
41124 ,%r132 
.L77000078 


.L77000085 


.L77000078 
4r131,500,%r131 
4r133,1,%r133 
41133 410134 
.L77000080 


.L77000087 





图 21-5 与 图 21-2 中 Fortran 77 程 序 的 第 9 ~ 12 行 对 应 的 asm+ 代 码 


“在 此 之 后 ， 代 码 生 成 器 按 如 下 顺序 执行 一 系列 的 处 理 : 
1. 指令 选择 ; 
2. 其 计算 效果 已 明确 的 汇编 语言 模板 内 幅 ; 
3. 局 部 优化 ， 包 括 死 代码 删除 、 伸 直 化 、 分 支 链接 、 将 setis 指 令 外 提出 循环 ， 用 无 分 支 
的 机 器 方言 替换 分 支 代码 序列 ， 以 及 公共 条 件 代 码 优 化 ; 
4. 宏 扩展 ， 第 1 遍 (扩展 二 叉 分 支 和 其 他 几 种 结构 ) ; 
5. 活跃 值 的 数据 流 分 析 (0O2 以 上 ) ; 
6. 软 流水 和 循环 展开 (O03 以 上 ); 
7. 早期 指令 调度 ( 仅 04) ; 
8. 图 着 色 寄 存 器 分 配 (02 以 上 ) ; 
9. 栈 帧 分 配 ; 
10. 宏 扩展 ， 第 2 遍 (扩展 存储 到 存储 的 传送 、max、min、 与 常数 值 的 比较 、 入 口 、 出 口 等 ) ; 
11. 延迟 槽 填充 ; 
12. 后 期 指令 调度 ; 
13. 其 计算 效果 不 明确 的 汇编 语言 模板 内 幅 (OWE) ; 
14. 宏 扩展 ， 第 3 遍 (以 简化 代码 发 射 ) ; 
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15. 可 重 定位 目标 代码 的 发 射 。 

对 于 O1 优 化 ， 寄 存 器 分 配 采 用 类 似 于 16.2 节 描述 的 基于 代价 的 局 部 方法 。 

Sun 的 编译 系统 提供 了 静态 的 ( 先 于 执行 的 ) 和 动态 的 (运行 时 的 ) 两 种 连接 方式 。 选 择 
静态 或 动态 的 ， 或 者 选择 部 分 动态 部 分 静态 的 ， 是 由 连接 时 的 选项 控制 的 。 

图 21-6 所 示 SPARC 汇 编 代 码 是 图 21-1 中 的 C 函 数 用 04 优 化 编译 后 得 到 的 结果 列表 。 注 意 
king 的 常数 值 已 传播 到 条 件 中 ， 并 且 死 代码 已 被 删除 ( 取 存 储 在 .L_const_seg_900000101 
的 常数 3.14 和 存储 它 至 %8fp-8 的 指令 除外 )， 循 环 不 变量 length*width 已 提出 循环 。 这 个 循 
环 已 展开 4 次 ， 乘 以 height 的 乘法 已 削弱 为 加 法 ， 局 部 变量 都 已 分 配 到 寄存 器 中 ， 已 执行 了 
指令 调度 ， 并 且 也 优化 了 对 process O 的 尾 调用 。 但 另 一 方面 ， 在 第 一 个 循环 之 前 有 些 指令 
是 不 必要 的 ，area 的 累加 本 应 当 转 换 为 一 个 乘法 。 另 外 ， 有 点 奇怪 的 是 循环 展开 标准 导致 展 
开 了 前 8 个 和 迭代， 但 没有 包括 最 后 两 个 迭代 。 


“bi (length) ,%00 

Khi (width) ,%o1 

whi (.L_const_seg_900000101) , %02 

[400-410 (length) ] , 400 

[4014410 (width)] ,%o1 

%4g0,0,%i1 

[%o2+%10(.L_const_seg_900000101)] ,%f0 

%00,%01,%00 

4£0, [%fp-8] 

%4g0,0,%10 

%g0,0,%11 

Wil 411, Wit 

%10,1,%10 

%g0,0,%i0 
.L900000111: 311,500, 401 

54401, 500, 502 

%i1,%01,%01 

%01,%02, %01 

402 ,%00 , %02 

4%i0 ,Yo0 ;yo3 

%o2,%00,%11 

%o1,%02,%01 

%03 ,%00 , %03 

110,3 

%o1,%11,%i1 

503,400, %03 

410,4,%10 

.L900000111 

403,00, 410 
.L900000112: 411,5400,411 

%10 ,10 

.L77000021 

$10,400, 410 
.L77000015: 511,111, 4i1 

110,1,410 

411,500, 411 

110,10 

.L77000015 

%i0,%00,%i0 
.L77000021: process,2 ! (tail call) 

restore %g0,%g0,%g0 





图 21-6 图 21-1 中 的 程序 由 SPARC C 编 译 器 用 O4 优 化 产生 的 机 器 代码 所 对 应 的 SPARC 汇 编 代码 
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图 21-7 所 示 的 SPARC 汇 编 代码 是 图 21-2 中 的 主 程序 由 Sun Fortran 77 编 译 器 用 O4 优 化 编译 后 
得 到 的 (我们 已 省 略 了 赋 初 值 的 循环 所 产生 的 代码 ， 并 只 留 下 了 调用 sl1 () 所 产生 的 代码 ， 
sl1() 已 自动 内 联 进来 )。 因 为 sl 0 已 被 内 联 ， 该 编译 器 能 够 知道 n 的 值 是 500， 因 此 它 用 因子 4 
展开 最 内 层 循环 ，、 并 且 没 有 产生 卷 起 的 副本 。 展 开 的 循环 从 标号 .1L900000112 到 标 
号 .L900000113， 其 中 包括 8 个 取 、4 个 存 、7 个 加 、1 个 比较 和 1 个 分 支 。 除 了 线性 函数 测试 赫 
换 本 来 还 可 以 删除 一 个 加 法 外 ， 对 于 这 个 展开 因子 它 是 最 少 的 指令 序列 。 局 部 变量 都 已 分 配 到 
寄存 器 中 ， 并 且 循 环 已 经 软 流水 (注意 ， 取 数 指令 在 循环 开始 标号 的 前 面 )。 循 环 中 的 临时 变量 
的 分 配方 式 是 使 得 调度 自由 度 最 大 的 方式 。 但 是 ， 编 译 器 既 为 主 程序 生成 代码 ， 也 为 s1 () 生成 
了 代码 ， 而 这 是 不 必要 的 一 一 因为 很 明显 主 程序 只 调用 了 sl () ， 并 且 s1 没 有 调用 其 他 涌 数 。 


MAIN : save 4sp,-120,%sp 


.L77000057: sethi %hi(GPB.MAIN.a),%o1 
add 401, 410(GPB.MAIN.a), X01 
420 ,-2004 , 4,02 
502,501, gi 
%#20,1,%05 
40,500, %07 
.L77000043: 405,1,%14 
%11,500 
.L77000047 
411,5,%01 
%01,%11, 401 
%01,2,%01 
%11,%01,%ot 
%o01,2,%10 
.L77000044: %07 ,1,%02 
%10,1,%01 
402 ,2,%02 
%481,%02,%12 
401,2,%01 
%¢0,1,%13 
(412] ,%02 
412,4,4%12 
*g1, 01,500 
4%13,1,%13 
.L900000112: [%00] ,%o1 
413,493 
502,401, *01 
%01, [h00] 
%00,16,%00 
(%12] ,%02 
[400-12] , %03 
%$12,16,%12 
%02,%03, %02 
%02, [400-12] 
[412-12] ,Yol 
%13 ,4,%13 
[%00-8] , 404 
%01,%04,%01 
401, [4500-8] 
[%12-8] , %02 





图 21-7 图 21-2 中 的 程序 由 SPARC Fortran 77 编 译 器 用 O04 优化 产生 的 机 器 代码 所 对 应 的 SPARC 汇 编 代码 
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ld [%00-4] ,%03 
add ho2,%03 ,%o2 
st %02, [400-4] 
ble .L900000112 
ld [412-4] ,%o2 


.L900000113:1d [400] , 401 
413,500 
%02,%01,%01 
401, [400] 
.L77000046 
500,4, %00 
.L77000056: [%12] , 401 
413,1,%13 
[400] , %02 
413,500 
401,402, 401 
%01, [400] 
%12,4,4%12 
.L77000056 
%00 ,4,%00 
.L77000046: add 111,1,411 
cmp $411,500 
ble .L77000044 
add %410,500,%10 
.L77000047: add %05,1,%05 
cmp 405,500 
ble .L77000043 
add %07 ,500, %07 
.L77000049: ret 
restore %4g0,4%g0,%g0 





图 21-7 (4) 


21.2 IBM POWER 和 PowerPC 体 系 结构 的 XL 编译 器 


21.2.1 POWER 和 PowerPC 体 系 结构 


POWER 体系 结构 是 一 种 增强 的 32 位 RISC 机 器 ， 它 由 分 支 、 定 点 、 浮 点 和 存储 控制 处 理 器 
组 成 。 系 统 中 除了 寄存 器 是 共享 的 ， 并 且 只 有 一 个 分 支 处 理 器 之 外 ， 对 于 不 同 的 实现 ， 每 一 种 
类 型 的 处 理 器 可 以 有 多 个 。 

分 支 处 理 器 包括 条 件 寄 存 器 、 连 接 寄 存 器 和 计数 寄存 器 ， 并 执行 条 件 和 无 条 件 分 支 、 调 用 、 
系统 调用 ， 以 及 条 件 寄 存 器 传送 和 逻辑 运算 。 条 件 寄存 器 由 8 个 4 位 的 条 件 域 组 成 ， 其 中 之 一 由 
有 选择 的 定点 指令 来 设置 ， 另 一 个 由 浮 点 指令 设置 ， 其 他 的 条 件 域 可 用 于 保存 多 个 条 件 ， 并 且 
都 可 以 用 来 控制 分 支 。 连 接 寄存 器 主要 用 于 存放 调用 地 址 ， 计 数 寄存 器 用 于 循环 控制 ， 它 们 两 
者 都 可 以 读 写 整 数 寄 存 器 。 

定点 处 理 器 包含 32 个 32 位 的 整数 寄存 器 ， 其 中 gr0 当 在 地 址 计算 以 及 取 地 址 指令 中 用 作 操 
作 数 时 提交 的 值 是 0。 定 点 部 件 有 两 种 基本 寻 址 方式 ， 寄 存 器 + 寄存 器 和 寄存 器 + 位移， 另外 
还 具有 用 已 计算 的 地 址 更 新 基 寄 存 器 的 能 力 。 它 实现 取 和 存 〈 包 括 对 具有 反 转 字 节 的 半 字 、 对 
多 个 字 以 及 对 字符 串 的 操作 形式 )、 算 术 、 逻 辑 、 比 较 、 移 位 、 旋 转 和 自 陷 指 令 ， 以 及 系统 控 
制 指令 。 





浮 点 处 理 器 有 32 个 64 位 的 数据 寄存 器 ， 并 且 只 对 双 精 度 值 实现 了 ANSUVIEEE 浮 点 标准 。 它 
包括 取 和 存 指令 、 算 术 指 令 、 整 数 与 单 精度 值 的 转换 指令 、 比 较 指令 ， 以 及 某 些 特殊 的 操作 ， 
这 些 操作 在 乘法 运算 之 后 不 立即 进行 截断 便 做 加 法 或 减法 运算 。 

存储 控制 处 理 器 提供 段 式 主 存 以 及 与 高 速 缓存 和 后 备 转换 缓冲 区 的 接口 ， 并 负责 虚实 地 址 
转换 。 

PowerPC 体 系 结构 几乎 是 POWER 向 上 兼容 的 扩充 ， 它 可 以 有 32 位 和 64 位 的 实现 。64 位 的 
实现 总 是 同时 允许 64 位 和 32 位 的 操作 模式 ， 两 种 模式 不 同 在 于 有 效 地 址 的 计算 和 出 现 的 指令 序 
列 。PowerPC 处 理 器 由 分 支 、 定 点 和 浮 点 处 理 器 组 成 ， 并 且 同 POWER 一 样 ， 系 统 可 以 有 一 个 
以 上 的 定点 和 浮 点 处 理 器 ， 但 只 有 一 个 分 支 处 理 器 。 

分 支 处 理 器 有 一 个 32 位 的 条 件 寄 存 器 、 一 个 64 位 的 连接 寄存 器 和 一 个 64 位 的 计数 寄存 器 ， 
它们 的 作用 与 POWER 中 的 基本 相同 。 

定点 处 理 器 有 32 个 64 位 的 整数 寄存 器 ， 其 中 gz0 的 作用 与 POWER 中 的 相同 。PowerPC 包 
含 与 POWER 相同 的 寻 址 方式 ， 除 了 使 某 些 难于 处 理 的 情形 (如 使 用 基地 址 寄存 器 作为 一 条 有 具 
有 更 新 能 力 的 取 数 指令 的 目标 地 址 ， 或 者 取 包 含 基 寄 存 器 作为 目标 地 址 的 多 个 字 ) 成 为 非法 情 
形 之 外 ， 它 实现 了 与 POWER 定 点 部 件 相 同 种 类 的 指令 ， 但 增加 了 存储 用 法 控制 指令 。 有 少数 
指令 被 删除 了 ， 其 原因 或 者 是 由 于 难于 实现 ， 例 如 差 或 零 指 令 (有 助 于 求 最 大 和 最 小 值 ) 和 循 
环 左 移 屏蔽 插入 指令 ， 或 者 是 由 于 改变 到 64 位 操作 而 不 再 需要 了 。 另 外 也 增加 了 一 些 新 指令 ， 
其 中 许多 是 用 于 处 理 高 速 缓存 和 后 备 转换 缓冲 区 的 。 

PowerPC 浮 点 处 理 器 有 32 个 64 位 的 数据 寄存 器 ， 并 实现 单 精 度 和 双 精 度 值 的 ANSVWIEEE 标 
谁 。 除 了 处 理 32 位 形式 的 新 指令 外 ， 指 令 集 实际 上 与 POWER 相 同 。 

典型 的 POWER 和 PowerPC 指 令 有 三 个 操作 数 一 一 两 个 源 操作 数 和 一 个 结果 。 第 一 个 源 操作 
数 和 结果 几乎 总 是 寄存 器 ， 第 二 个 源 操 作 数 可 以 是 寄存 器 ， 也 可 以 是 小 常数 。 在 汇编 语言 中 ， 
操作 数 的 顺序 是 结果 操作 数 、 第 一 个 源 操作 数 ， 然 后 是 第 二 个 源 操作 数 。 有 关 汇 编 语言 的 更 多 
细节 请 参见 附录 A.2。 

21.2.2 XL 编译 器 


用 于 IBM POWER 和 PowerPC 体 系 结构 的 编译 器 是 著名 的 XL 系列 ， 包 括 PL.8、C、 
Fortran 77、Pascal 和 C++ 等 编译 器 ， 除 了 第 一 个 之 外 ， 它 们 都 可 提供 给 用 户 。 它 们 源 于 1983 
年 开始 为 IJBM 的 一 种 RISC 体 系 结构 提供 编译 器 的 项 目 ， 这 种 RISC 体 系 结构 是 IBM 801 和 
POWER 之 间 的 一 个 中 间 阶 段 ， 它 从 未 作为 产品 发 布 。 但 是 第 一 个 基于 XL 技 术 的 两 个 编译 器 
事实 上 是 用 于 PC RT 的 一 个 优化 Fortran 编 译 器 和 一 个 C 编 译 器 ， 其 中 Fertran 编 译 器 只 发 布 给 经 
过 选择 的 少数 几 个 用 户 ，C 编 译 器 只 用 于 IBM 内 部 的 开发 。 这 两 个 编译 器 的 后 端 是 可 改变 的 ， 
因此 能 移植 到 IBM 370 体 系 结构 、 前 面 提 到 的 那个 未 发 布 的 体系 结构 、PC RT. POWER, 以 
及 最 近 的 PowerPC 。 

XL 编 译 器 的 结构 如 图 21-8 所 示 ， 它 遵循 在 低级 代码 上 进行 优化 的 模式 。 每 一 种 编译 器 由 
称 为 转换 器 的 前 端 、 全 局 优化 器 、 指 令 调 度 器 、 寄 存 器 分 配器 、 指 令 选择 器 ， 以 及 称 为 最 后 汇 
编 的 一 遍 组 成 ; 这 个 最 后 汇编 产生 可 重 定位 映像 和 汇编 语言 列表 。 此 外 ， 有 一 个 称 为 根 服务 的 
模块 ， 它 与 所 有 遍 打 交道 ， 并 通过 诸如 区 分 有 关 如 何 生成 列表 和 报错 之 类 的 信息 而 使 编译 器 能 
与 多 个 操作 系统 兼容 。 有 一 个 反 汇 编 器 能 够 由 可 重 定位 模块 产生 汇编 语言 。 这 些 编译 器 都 是 用 
PL.8 编 写 的 。 
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转换 器 通过 调 XIL 库 例 程 将 源 语 言 转 换 成 称 为 XIL 的 中 间 形 式 。 这 些 XIL 生 成 例 程 不 仅仅 生 
成 指令 ， 例 如 ， 它 们 也 生成 常数 替代 原本 应 计算 该 常数 的 指令 。 转 换 器 可 以 由 一 个 转换 源 语言 
到 不 同 中 间 语 言 的 前 端 ， 后 随 一 个 从 其 他 中 间 形 式 转换 到 XIL 的 转换 器 组 成 。System/370 的 C 
转换 器 是 这 样 做 的 ，370、POWER 和 PowerPC 的 C++ 也 是 这 样 做 的 ， 它 们 都 首先 转换 源 语言 到 
370 的 中 间 语 言 。 





可 重 定位 的 


图 21-8 IBM XL 编译 器 结构 


编译 器 的 后 端 (除了 源 到 XIL 的 转换 器 之 外 的 所 有 遍 ) 称 为 TOBEY， 即 “TOronto Back 
End with Yorktown” 首 字母 的 缩写 词 ， 它 象征 着 后 端 继承 的 是 801 的 PL.8 编 译 器 ， 并 且 是 
POWER 系统 开发 的 预演 ， 尽 管 后 来 几乎 每 一 个 模块 都 已 有 重大 改变 或 已 被 替换 。 

一 个 编译 单位 的 XIL 由 一 个 过 程 描述 符 表 (procedure descriptor table) 和 一 个 指向 它 的 代 
码 表示 的 指针 组 成 。 过 程 描述 符 表 由 每 一 个 过 程 有 关 的 信息 (如 栈 帧 的 大 小 ) 和 它 所 涉及 的 全 
局 变量 有 关 的 信息 组 成 。 代 码 的 表示 是 一 个 过 程 表 (procedure list)， 它 包含 指向 表示 指令 的 
XIL 结 构 的 指针 ; 指令 是 非常 低级 的 形式 并 且 与 源 语言 无 关 。 每 一 条 指令 由 计算 表 
(computation table) 中 的 一 项 来 表示 ， 计 算 表 也 简称 CT， 它 是 一 个 变 长 记录 数组 ， 这 些 记录 是 
指令 的 中 间 代 码 的 前 序 遍 历 表示 。 过 程 中 相同 的 指令 共享 同一 个 CT 项 。 每 一 个 CT 项 由 一 个 操 
作 码 后 随 可 变 个 操作 数组 成 ， 操 作 数 可 以 是 范围 从 0 到 2' — 1 的 整数 、 指 向 大 整数 和 负 整 数 的 索 
引 、 浮 点 数 、 寄 存 器 号 、 标 号 、 符 号 表 引 用 ， 等 等 。 操 作 码 可 以 是 RISC 风 格 的 操作 符 ， 取 或 
存 ， 复 合 操作 符 (如 MRX 或 MIN)， 管 理性 的 操作 符 (例如 过 程 头 或 基本 块 的 开始 ) ， 或 者 控制 
流 操作 符 ， 包 括 无 条 件 的 、 有 条 件 的 以 及 多 路 形式 的 〈 后 者 由 一 个 选择 符 和 一 张 标 号 表 组 成 ) 。 
变量 和 中 间 结 果 用 符号 寄存 器 表示 ， 它 们 中 的 每 一 个 构成 了 符号 寄存 器 表 (symbolic register 
table) 中 的 一 项 ; 每 一 个 符号 寄存 器 表 项 指向 定义 它 的 CT 项 。 图 21-9 展 示 了 过 程 表 、CT 和 符 
号 寄存 器 表 之 间 的 关系 。 
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过 程 表 计算 表 (CT) TES SET EA 





图 21-9 过 程 的 XIL 结 构 
图 21-10 给 出 了 图 21-1 中 第 一 部 分 代码 由 C 转 换 器 产生 的 XIL 代 码 的 外 部 表示 的 一 个 例子 。 





注意 ， 这 个 外 部 表示 有 许多 隐 含 的 和 未 表示 出 来 的 代码 结构 。 其 中 操作 码 的 含义 如 下 : 
1. PROC 一 一 过 程 入 口 点 
2. ST4A 一 一 存 字 指 令 
3. L4A 一 一 取 字 指令 
4. C4 一 一 比较 字 指 令 
5. BF 一 一 根据 条 件 为 假 分 支 指令 
6. M 一 一 乘 运算 指令 
7. A 一 一 加 运算 指令 
8. BB 一 一 无 条 件 分 支 指令 


形式 为 .variable 的 操作 数 表示 variable 的 地 址 ，grn 表 示 符 号 寄存 器 4，crn 表 示 符 号 条 件 
寄存 器 n。 


area(grauto,0)=0 
volume (grauto,0)=0 
kind (grauto,0)=0 
height (grauto,0)=0 
gr315=height (grauto,0) 
cr316-gr315,10 
CL.2,cr316,0x1/1t 
gr3i7-kind(grauto,0) 
cr318-gr317,0 
CL.3,cr318,0x4/eq 
gr319=area(grauto,0) 
gr314-.length(gr2,0) 
gr320=length (gr314,0) 
gr313=.width(gr2,0) 
gr321-width(gr313,0) 
gr322-gr320,gr321 
Egr323-gr319,gr322 
area(grauto,0)-gr323 


图 21-10 图 21-1 中 C 程 序 第 1~10 行 对 应 的 XIL 代 码 
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gr324-volume(grauto,0) 
gr320-length(gr314,0) 
gr321=width(gr313,0) 
gr322=gr320,gr321 


gr315=height (grauto,0) 
gr325-gr315,gr322 
gr326-gr324,gr325 
volume(grauto,0)-gr326 
CL.4 





图 21-10  (£&) 
XIL 的 取 和 存 操 作 有 详细 表述 的 地 址 。 例 如 ， 一 条 一 般 的 取 字 指令 可 视 为 具有 下 面 的 形式 : 
L4A reg = name (rbase, rdisp, rindex, ---) 


为 了 从 这 种 形式 生成 370 的 代码 ，rbase、rdisp 、rindex 三 部 分 都 将 被 用 到 ， 只 要 
0< rdisp< 22; 如 果 这 个 不 等 式 不 满足 ， 则 首先 生成 把 rdisp + rindex 或 rbase + rdisp 放 至 寄存 器 
的 附加 指令 。 为 了 生成 POWER 的 代码 ， 既 可 以 在 其 他 部 分 为 0 时 使 用 rdisp + rindexs&rbase + 
rdisp (如 果 0< rdisp<25)， 也 可 以 首先 生成 合并 这 些 部 分 的 附加 指令 。 优 化 器 负责 保证 指令 选 
择 器 能 够 生成 所 选择 目标 机 体系 结构 的 合法 指令 。 

除了 MAX 和 MIN 外 ，XIL 包 含有 任意 个 数 操作 数 的 字 节 连接 运算 符 、 乘 法 运算 符 、 除 法 运 
算 符 等 。 优 化 器 将 MAX 和 MIN 运 算 符 转换 成 另 一 种 形式 ， 针 对 POWER 的 指令 选择 器 能 够 从 这 
种 形式 生成 对 应 的 由 两 条 指令 组 成 的 无 分 支 序 列 。 乘 法 运算 符 生 成 由 移 位 、 加 和 减 指令 组 成 的 
指令 序列 ， 或 者 生成 一 条 硬件 乘 指令 ， 但 无 论 使 用 那 一 种 ， 总 是 选择 对 于 给 定 的 操作 数 和 目标 
机 较 高 效 的 一 种 。 除 以 [|、3、5、7、9、25、125 的 除法 以 及 这 些 整 数 与 2 的 圭 的 乘积 生成 一 个 
长 乘法 和 一 个 双 字 移 位 ; 其 他 的 除法 生成 一 个 除法 运算 指令 。 

编译 器 的 后 端 使 用 了 另外 一 种 中 间 语 言 ， 叫 做 YIL， 它 用 于 存储 有 关 的 优化 ， 并 可 以 在 将 
来 用 于 并 行 化 。 一 个 过 程 的 YIL 由 TOBEY 根 据 它 的 XIL 生 成 ， 它 除了 包含 XILL 中 的 结构 外 ， 还 
包含 关于 循环 结构 的 表示 、 赋 值 语句 、 下 标 运算 ， 以 及 语句 一 级 的 条 件 控制 流 。 它 也 表示 SSA 
形式 的 代码 。 当 然 ， 其 目的 是 为 了 产生 适合 依赖 关系 分 析 和 循环 转换 的 代码 。 在 这 种 分 析 和 转 
换 执 行 之 后 ，YIL 将 被 重新 转换 成 XIL。 

别名 信息 由 特定 语言 的 转换 器 提供 给 优化 器 , 优化 器 通过 调用 前 端的 例 程 而 得 到 这 些 信 息 。 
除了 每 一 种 语言 定义 提供 的 别名 规则 之 外 ， 并 没有 做 进一步 的 分 析 。 

控制 流 分 析 是 简单 的 。 它 标识 过 程 内 基本 块 的 边界 ， 建 立 流 图 ， 构 造 流 图 的 深度 为 主 搜索 
树 ， 并 将 它 划分 为 区 间 。 基 本 块 结构 记录 在 用 基本 块 编 号 作为 索引 的 一 张 表 中 ， 对 于 每 一 个 基 
本 块 ， 它 包含 指向 该 基本 块 在 过 程 表 中 对 应 的 第 一 项 和 最 后 一 项 的 两 个 指针 ， 以 及 这 个 基本 块 
的 前 驱 和 后 继 基 本 块 的 编号 表 。 

数据 流 分 析 通 过 区 间 分 析 来 进行 ， 对 非 可 归 约 区 间 则 采用 迭代 方法 ， 数 据 流 信息 记录 在 位 
向 量 中 。 对 于 某 些 优化 ， 如 重 结合 和 强度 削弱 ， 这 些 位 向 量 被 转换 成 da 和 ud 链 。 在 这 些 遍 的 处 
理 过程 中 ,活跃 寄存 器 和 du 与 ud 链 随 需要 而 更 新 。 

优化 器 进行 如 下 一 系列 的 转换 〈 按 执行 它们 的 顺序 六 

1. 根据 标号 的 多 少 ， 将 多 路 分 支 转 换 成 由 比较 与 条 件 分 支 构成 的 序列 ， 或 者 转换 成 通过 跳 
转 表 的 转移 ; 

2. 映射 已 分 配 局 部 栈 的 变量 到 寄存 器 十 位 移 地 址 ; 

3. 如 果 要 求 进行 内 联 并 且 几 种 启发 式 标准 也 允许 的 话 ， 内 联 来 自 当 前 编译 模块 中 的 例 程 ; 
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4. 非常 激进 的 值 编号 ( 比 任何 已 发 表 的 版 本 都 更 先进 ) ; 

5. 全 局 公共 子 表达 式 删除 ; 

6. 循环 不 变 代码 外 提 ; 

7. 存 数 指令 下 移 ; 

8. 死 代 码 删除 ; 

9. 重 结合 (参见 12.3.1 节 )、 强 度 削 弱 ， 以 及 POWER 和 PowerPC 的 带 更 新 形式 的 取 和 存 指 
令 的 生成 ; 

10. 全 局 常数 传播 ; 

11. 死 代码 删除 ; 

12. 某 些 体系 结构 特殊 的 优化 ， 它 们 的 非 正 式 名 称 为 “wand waving”， 例 如 将 MAX 和 MIN 转 
换 成 无 分 支 的 序列 ; 

13. 宏 操作 扩展 ， 即 ， 将 所 有 操作 码 和 地 址 表达 式 的 层次 降低 到 目标 机 所 支持 的 形式 ， 将 
调用 转变 成 访问 参数 和 执行 调用 的 指令 序列 ， 转 变 大 常数 为 生成 其 值 的 指令 序列 ， 等 等 ; 

14. 值 编 号 ; 

15. 全 局 公共 子 表达 式 删 除 ; 

16. 死 代 码 删 除 ; 

17. 已 死 归纳 变量 删除 ， 包 括 浮 点 变量 。 

浮 点 除法 被 转换 成 三 条 指令 的 序列 ， 它 包含 有 一 个 乘法 和 一 个 加 法 。 如 果 在 Fortran 77 编 译 
过 程 中 打开 了 边界 检查 ， 则 紧 接 着 重 结合 和 强度 削弱 遍 之 后 ， 进 行 自 陷 移动 分 析 和 代码 移动 。 

TOBEY 包 含 两 个 寄存 器 分 配器 ， 一 个 是 “ 虽 快 却 粗糙 ”的 局 部 分 配器 ， 它 在 不 需要 优化 
时 使 用 ， 一 个 是 图 着 色 全 局 寄存 器 分 配器 ， 该 分 配器 基于 Chaitin 的 方法 ， 但 其 溢出 代码 类 似 于 
Briggs 的 方法 〈 参 见 16.3 节 )。 在 寄存 器 分 配 之 前 有 一 遍 对 过 程 入口 和 出 口 进行 细 化 ， 并 执行 尾 
调用 化 简 和 叶 例 程 优化 。 图 着 色 寄 存 器 分 配 也 进行 “清扫 ”(scavenging)， 即 值 编号 的 一 种 版 
本 ， 它 将 溢出 临时 变量 的 取 和 存 指令 移出 循环 。 该 分 配器 对 每 一 个 过 程 尝试 16.3.12 节 讨论 的 所 
有 三 种 选择 溢出 代码 的 启发 式 方法 ， 并 从 中 选用 最 好 的 一 个 来 选择 溢出 代码 。 

好 几 篇 论文 中 都 有 其 指令 调度 器 的 介绍 (参见 21.7 节 )。 除 了 基本 块 和 分 支 调 度 外 ， 指 令 
调度 器 也 进行 全 局 调度 。 全 局 调度 在 无 环 路 的 流 图 上 工作 ， 并 使 用 程序 依赖 图 (参见 9.5 节 ) 
来 描述 对 调度 的 约束 。 在 优化 处 理 过 程 中 ， 指 令 调度 在 寄存 器 分 配 之 前 运行 ， 并 且 当 寄存 器 分 
配 生成 了 溢出 代码 时 ， 在 其 后 再 运行 一 次 。 

最 后 的 汇编 遍 对 XIL 进 行 两 遍 处 理 ， 一 遍 做 若干 种 窥 孔 优化 ， 例 如 ， 合 并 由 与 对 应 算术 运 
算 相 比较 而 设置 的 条 件 代码 ， 并 删除 这 些 比较 (有 关 例子 参见 图 21-11) ; 另 一 遍 输 出 可 重 定 
位 的 映像 和 列表 。 最 后 汇编 调用 特定 语言 转换 器 中 
的 例 程 来 获得 要 包含 在 可 重 定位 模块 中 的 调试 信息 。 

图 21-12 给 出 的 是 图 21-1 的 程序 的 POWER 汇编 代 
码 ， 由 XL 反 汇编 器 根据 XL C 编 译 器 在 选择 03 优 化 
级 别 下 生成 的 该 程序 的 目标 代码 生成 。kind 的 常数 
值 已 传播 到 条 件 中 ， 并 且 死 代码 已 被 删除 ; 循环 不 E POWER 中 将 条 件 代码 设置 和 算术 

. ^ 4 运算 合并 的 例子 。a) 中 的 ci 已 在 b) 中 
变量 1ength*wiath 已 从 循环 中 移出 ; 循环 已 用 因 通过 设置 它 的 记录 位 而 合并 到 s 中 
子 2 展 开 ; 局 部 变量 都 已 分 配 到 寄存 器 中 ; 并 且 已 执 whee . 
行 了 指令 调度 。 另 一 方面 ， 对 process O 的 尾 调 用 没有 被 优化 ，area 的 累加 也 没有 转变 成 单 
一 乘法 。 
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rO,LR 
r5,T.22.width(RTOC) 
SP ,-64(SP) 
r4,T.26.length(RTOC) 
r0,72(SP) 

r0,0(r4) 

r5,0(r5) 

r4,5(r0) 

r0,r0,r5 

r3,0(r0) 

CTR,r4 

r4,0(r3) 

r5,0(r3) 

r6,rb,1 

r3,r3,r0 

r5,r5,r0 

r4,r4,r5 

r5,r6,r0 

r4,r4,r5 

r3,r3,r0 

r5,r6,1 

BO. dCTR, NZERO, CRO, LT, __L34 
.processPR 

CR3_S0 ,CR3_S0 ,CR3_S0 
r12,72(SP) 

SP,SP,64 

LR,ri2 
BO_ALWAYS , CRO_LT 


图 21-12 图 21-1 的 程序 的 POWER 汇 编 代 码 ， 由 XL 反 汇 编 器 根据 XL C 编 译 器 
在 选择 03 优 化 级 别 下 生成 的 该 程序 的 目标 代码 生成 


图 21-13 给 出 了 图 21-2 的 子 程 序 s1 O 的 POWER 汇编 代码 ， 由 XL 反 汇编 器 根据 XL Fortran 编 
译 器 在 选择 O3 优 化 级 别 下 生成 的 该 子 程序 的 目标 代码 生成 。 子 程序 sl () 没有 内 联 。 内 层 循环 
已 用 因子 2 展开 (从 标号 __Lfc 到 下 一 条 bc 指令 )。 这 个 展开 的 循环 含有 4 条 取 (其 中 两 个 带 更 
新 ) 指令 、 两 条 带 更 新 的 存 指令 、 两 条 加 指令 以 及 一 条 分 支 指令 。 对 于 POWER 体 系 结构 ， 这 
是 最 少 的 情形 。 局 部 变量 已 分 配 到 寄存 器 并 且 已 执行 了 指令 调度 。 





r10,0(r4) 

r31,-4(SP) 

r8,0(r10) 

1,r8,0 
BO_IF_NOT,CR1_FEX,__Lia4 
r6,r10,-1 

r12,0(r6) 

0,r12,0 


r?,r3,1996 

r9,r3,-4 

r11,2(r0) 
BO_IF_NOT,CRO_GT,__L154 
r3,r10,31,1,31 
r4,r10,0,31,31 . 

1,r3,0 


图 21-13 图 21-2 的 子 程序 sl () 的 POWER 汇编 代码 ， 由 XL 反 汇编 器 根据 XL Fortran 编 译 器 
在 选择 03 优 化 级 别 下 生成 的 该 子 程序 的 目标 代码 生成 
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r31,0(r7) 
mtspr  CTR,r3 


..Lec: ai r12,r12,-1 

cal r5,0(7r31) 

cal r4,0(r9) 
_-Lf8: be BO_IF,CR1_VX,__L124 
..Lfc: lu r3,4(r4) 

1 r0,4(r5) 

a r3,r3,r0 

stu r3,4(r5) 

lu r3,4(r4) 

1 r0,4(r5) 

a r3,r3,r0 

stu r3,4(r5) 

bc BO, dCTR NZERO,CRO LT,  Lfc 

bc BO. IF,CRO, EQ, ... L134 
..L124: lu r3,4(r4) 

1 r4,4(r5) 

a r3,r3,r4 

stu r3,4(r5) 
..L134: cmpi 0,r12,0 

ai r31,r31,2000 

bc BO IF NOT,CRO GT, . Lí54 


rlinm  r3,r10,31,1,31 
rlinm. r4,r10,0,31,31 
cmpi 1,r3,0 
mtspr CTR,r3 


b __Lec 
__L154: ai. r8,r8,-1 
ai r9,r9,2000 
ai r?,r7,2000 
ai rii,rii1,1 
ai r6,r6,-1 
bc BO IF. NOT,CRO. GT,... L19c 
cal r12,0(r6) 
cmpi 0,r12,0 
bc BO_IF_NOT,CRO_GT,__L154 


rlinm  r3,r10,31,1,31 
rlinm. r4,r10,0,31,31 
cal r31,0(r7) 

cmpi 1,r3,0 

mtspr  CTR,r3 


ai rí2,r12,-1 
cal r5,0(r31) 
cal r4,0(r9) 
b ..Lf8 
..L19c: 1 r31,-4(SP) 
ber BO. ALWAYS,CRO. LT 


--L1a4: BO. ALWAYS , CRO LT 


图 21-13  (£&) 





21.3 DEC 用 于 Alpha 的 编译 器 


21.3.1 _ Alpha 体系 结构 
Alpha 是 一 种 全 新 的 体系 结构 ， 它 是 由 数字 设备 公司 (DEC) 作为 VAX 和 基于 MIPS 的 系统 
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的 后 一 代 产 品 而 设计 的 ， 它 是 一 种 非常 现代 且 新 式 的 64 位 RISC 设 计 。Alpha 有 32 个 64 位 的 整数 
寄存 器 〈 其 中 *31 当 作为 源 操作 数 时 交付 值 0， 并 且 忽 略 写 给 它 的 结果 ) 和 32 个 64 位 的 浮 点 寄 
存 器 《其 中 ft31 具 有 与 31 类 似 的 作用 )。 它 只 有 一 种 寻 址 方式 ， 即 寄存 器 + 位移， 并 且 没 有 
条 件 码 。 

整数 指令 包括 取 和 存 ， 无 条 件 分 支 ， 基 于 寄存 器 中 的 值 与 0 相 比较 的 有 条 件 分 支 ， 分 支 到 
子 程序 和 从 子 程序 返回 的 跳 转 ， 以 及 在 协 例 程 之 间 进 行 分 支 的 跳 转 ， 算 术 指 令 (包括 其 中 一 个 
操作 数 可 以 缩放 4 或 8 倍 的 加 和 了 减 指令 )， 在 指定 的 寄存 器 中 设置 一 位 的 有 符号 和 无 符号 比较 指 
令 ， 逻 辑 、 移 位 和 有 条 件 传送 指令 ， 以 及 有 利于 字符 串 处 理 的 一 组 丰富 的 操纵 字 节 的 指令 。 

浮 点 设计 实现 了 ANSUIEEE 标 准 ， 但 对 于 一 些 边 角 情 况 需要 来 自 操作 系统 的 很 多 协助 。 它 
实现 了 VAX 和 ANSIIEEE 两 种 单 精度 和 双 精 度 格式 ， 所 提供 的 指令 包括 取 和 存 、 分 支 、 条 件 传 
送 、VAX 和 ANSIIEEE 两 种 算术 和 运算， 以 及 整数 与 VAX 浮 点 格式 的 转换 和 整数 与 ANSIIEEE 浮 
点 格式 的 转换 。 

系统 控制 指令 提供 有 预 取 提 示 ， 实 现 了 关于 弱 系 统 存储 模式 的 存储 器 和 自 陷 栅栏 ， 并 实现 
了 所 谓 的 有 特权 的 体系 结构 库 (Privileged Architecture Library )。 其 中 最 后 一 种 是 为 了 给 那 种 
可 以 从 一 种 系统 实现 变化 到 另 一 种 系统 实现 的 操作 系统 提供 方便 而 设计 的 。 

典型 的 Alpha 指 令 有 三 个 操作 数 一 一 两 个 源 操 作 数 和 一 个 结果 操作 数 。 第 一 个 源 操作 数 和 
结果 操作 数 几 乎 总 是 寄存 器 ， 第 二 个 源 操 作 数 可 以 是 寄存 器 或 小 常数 。 在 汇编 语言 中 ， 操 作 数 
的 顺序 是 结果 操作 数 、 第 一 源 操作 数 ， 然 后 是 第 二 源 操作 数 。 关 于 其 汇编 语言 的 更 多 细节 请 参 
见 附录 A.3。 

21.3.2 Alpha 的 GEM 编 译 器 


DEC 关于 Alpha 编 译 器 的 开发 是 著名 的 GEM 项 目 ” 。GEM 不 是 首 字母 的 缩写 词 ， 尽 管 它 全 
是 大 写字 母 ， 这 个 名 字 是 从 为 Prism 开 发 编译 器 的 项 目 沿 袭 下 来 的 。Prism 是 DEC 早先 的 一 种 
RICS 设 计 ， 但 它 从 未 成 为 一 种 产品 。GEM 项 目 开 始 于 1985 年 ， 与 其 并 行 开 发 的 还 有 儿 种 内 部 
的 RISC。 需 要 为 好 几 种 目标 机 提供 编译 器 的 需求 导致 GEM 项 目 产生 了 易于 重新 移植 到 不 同 目 
标 机 的 编译 器 ， 并 且 这 些 编译 器 已 经 若干 次 被 移植 到 不 同 的 目标 机 。1987 年 Prism 被 暂时 地 选 
择 作为 DEC 进 入 RISC 市 场 的 第 一 个 项 目 ， 那 时 已 经 有 Prism 上 基于 GEM 的 Fortran 77 编 译 器 。 但 
是 ，DEC 不 久 便 将 其 DEC 工作 站 系列 改 为 使 用 MIPS 平 台 ， 并 且 在 1988 年 开始 了 将 基于 GEM 的 
编译 器 移植 到 基于 MIPS 的 PEC 工 作 站 上 的 工作 ， 其 中 基于 GEM 的 Fortran 77 编 译 器 于 1991 年 首 
先 被 移植 到 基于 MIPS 的 DEC 工作 站 。 l 

移植 GEM Fortran 77 编 译 器 到 Alpha 的 工作 开始 于 1989 年 11 月 。 到 1990 年 夏季 完成 了 BLISS 
编译 器 。 . 

Alpha 上 可 用 的 编译 器 包括 支持 VAX VMS 和 UNIX 扩 充 的 Fortran 77, Fortran 90, ANSI C 
(具有 其 他 方言 的 选项 )、C++、Ada、COBOL、Pascal、PLVI 以 及 BLISS。 这 些 编译 器 的 结构 如 
图 21-14 所 示 。 一 组 称 为 GEM shel! 的 实用 程序 提供 一 个 共同 的 操作 系统 接口 ， 此 接口 与 VMS、 
Ultrix、OSF/1 以 及 Windows NT 兼容 ; 它 包 括 正文 输入 /输出 、 诊 断 实用 程序 、 语 言 敏 感 的 编辑 器 、 
虚 存 管理 、 调 试 工具 ， 它 给 所 有 的 编译 器 和 环境 提供 了 一 种 共同 的 外 貌 和 感觉 。 每 一 个 编译 器 
有 它 自己 的 前 端 ， 但 其 他 所 有 部 分 是 共享 的 。 编 译 器 的 所 有 部 分 ， 除 C 前 端 是 用 C 编 写 的 外 ， 都 





日 GEM 项 目 也 产生 了 Digital 的 VAX 和 基于 MIPS 系 统 的 编译 器 。 
© “实际 上 存在 着 GEM shell 的 若干 种 版 本 ， 对 于 若干 组 主机 操作 系统 和 体系 结构 中 的 每 一 对 组 合 ， 均 各 有 一 个 
版 本 。 
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是 用 BLISS 编 写 的 。BLISS 宏 被 用 来 生成 中 间 语 言 的 元 组 的 运算 符 记 号 表 和 其 他 一 些 后 端 表格 。 


GEM shell 





可 重 定位 的 
图 21-14 DEC Alpha 编译 器 的 结构 


在 每 一 种 编译 器 中 ， 前 端 每 次 处 理 一 个 文件 ， 进 行 词法 、 语 法 和 静态 语义 分 析 ， 并 生成 一 
种 叫做 CIL (Compact Intermediate Language) 的 中 间 形 式 。 前 端 之 后 的 所 有 遍 都 每 次 处 理 一 个 

CIL 和 EIL (Expanded Intermediate Language) 都 用 结 点 的 双向 链表 来 表示 一 个 编译 单位 。 
在 CIL 中 ， 这 个 表 对 应 于 一 个 编译 单位 ， 结 点 具有 固定 大 小 。 每 一 个 结 点 是 一 个 记录 ， 它 的 各 
个 域 表 示 该 结 点 的 种 类 和 子 类 、 标 志 、 前 向 和 后 向 链 、 属 性 ， 以 及 指向 它 的 操作 数 结 点 的 指针 。 
有 若干 种 运算 符 具 有 比较 高 级 的 表示 ， 例 如 ， 取 一 个 变量 的 值 引用 的 是 该 变量 的 名 字 ， 下 标 表 
是 用 含有 下 标 表达 式 和 跨 步 的 表 来 表示 的 。 图 21-15a 展 示 了 语句 a=x[i] 的 CIL 形 式 ， 其 中 省 略 
了 某 些 次 要 的 子 域 。 


: fetch(i) : symref(; symbol-i) 

: fetch($1) 

: litref(; literal-[4]) 
: mul($1,$3) 


: subscr($1,[4], [0]; posn=1) 


: aref (x,$2) 


: symref(; symbol=x) 
: aplus($5,$4) 

: fetch($6) 

: symref(; symbol=a) 
: store($8,$7) 


: fetch($3) 


: store(a,$4) 





a) b) 
图 21-15 a) C 语 名 a=x[i] 的 CLL 代码 的 例子 ，b) 将 它 扩展 到 EIL 之 后 


该 编译 器 使 用 混合 优化 模式 ， 代 码 选择 位 于 全 局 优化 和 寄存 器 分 配 以 及 指令 调度 之 间 。 后 
端的 第 一 遍 ， 即 扩展 器 ， 转 换 CIL 为 低级 的 EIL 形 式 。 在 EIL 中 ， 结 点 表 对 应 一 个 过 程 ， 结 点 的 
大 小 是 可 变 的 。 结 点 是 元 组 ， 它 表示 具有 “适度 强 ”机 器 类 型 的 运算 。 每 一 个 元 组 由 运算 符 、 
操作 数 和 结果 的 类 型 、 它 的 各 个 操作 数 ， 一 个 属性 表 ， 以 及 链接 其 他 元 组 的 前 向 和 后 向 链 所 组 
成 。 与 CIL 相 比 ， 取 变量 的 值 在 EIL 中 被 扩展 成 对 一 个 符号 的 引用 ， 以 及 通过 该 符号 引用 来 取 数 
的 操作 ， 下 标 表 被 表示 成 一 系列 计算 该 下 标的 线性 形式 的 元 组 。 从 CIL 到 EIL 的 这 种 扩展 的 另 一 
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个 例子 是 过 程 调用 : 在 CIL 中 ， 过 程 调用 是 用 描述 实 参 表 以 及 如 何 传递 每 一 个 参数 和 如 何 接受 
结果 的 元 组 详细 表示 的 ; 而 在 EIL 中 ， 参 数 表 被 扩展 成 一 系列 实际 计算 这 些 参 数 的 元 组 .EI 也 
包含 专门 为 优化 器 而 设计 的 结 点 ， 如 cseref 结 点 ， 它 表示 使 用 的 是 公共 子 表达 式 。 图 21-15b 
展示 的 EIL 代 码 是 由 扩展 器 从 图 21-1Sa 所 示 的 CIL 代 码 产生 的 ， 其 中 同样 省 略 了 次 要 的 子 域 。 

该 编译 器 有 如 下 6 级 优化 : 

O0 这 一 级 只 进行 罕 孔 优化 ， 并 给 每 一 个 局 部 变量 分 配 一 个 不 同 的 栈 存储 单元 。 

Ol 这 一 级 产生 用 于 调试 的 代码 ; 它 进行 局 部 公共 子 表达 式 删 除 和 使 得 变量 可 共享 栈 单元 
和 寄存 器 的 生命 期 分 析 。 

O2 这 一 级 增加 了 不 会 显著 增加 代码 体积 的 传统 全 局 优化 。 

O3 这 一 级 增加 了 循环 展开 和 删除 分 支 的 代码 复制 〈 尾 融合 的 逆转 )。 

O4 这 一 级 增加 了 同一 编译 单位 中 的 过 程 内 联 。 

O5 这 一 级 增加 了 依赖 分 析 和 软 流水 。 

从 O01 级 开始 ， 控 制 器 进行 过 程 间 分 析 ， 以 确定 在 它 能 看 到 的 范围 内 的 调用 图 ， 并 进行 同 
一 编译 单位 内 的 过 程 内 联 。 然 后 对 组 成 一 个 编译 单位 的 这 些 过 程 进行 优化 ， 并 且 从 调用 树 的 叶 
结 点 至 根 每 次 一 个 过 程 地 为 它们 生成 代码 。 

优化 器 首先 构造 过 程 的 流 图 和 它 的 必 经 结 点 树 ， 在 此 过 程 中 删除 空 基本 块 、 不 可 到 达 代 码 
和 不 必要 分 支 。 基 本 块 表 按 “循环 序 ” 排 序 ， 它 类 似 于 深度 为 主 搜索 树 ， 但 保持 每 一 个 循环 体 
中 的 基本 块 是 相 邻 的 ， 以 便 改 善 代 码 的 局 部 性 。 每 一 个 循环 之 前 插 有 一 个 空 的 前 置 块 ， 循 环 之 
后 相应 也 插 有 一 个 块 。 另 外 ，while 循 环 被 转换 成 epeat 循 环 ， 因 为 不 变量 外 提 遍 的 设计 不 
将 代码 移出 至 while 循 环 之 外 。 数 据 流 分 析 采 用 了 Reif 和 Lewis ([ReiL77] 和 [ReiL86]) 的 符号 
计算 方法 ， 但 没有 构造 他 们 的 全 局 值 图 。 别 名 分 析 有 两 遍 ， 第 一 遍 在 数据 流 分 析 之 前 ， 它 用 符 
号 访问 和 可 能 的 别名 信息 标注 数据 访问 结 点 。 第 二 遍 在 数据 流 分 析 期 间 进行 ， 它 上 下 遍历 必 经 
结 点 树 ， 计 算 表 示 赋 值 潜在 副作用 的 位 向 量 。 

一 系列 的 察 孔 优 化 在 优化 的 三 个 点 上 进行 ; 这 三 个 点 是 数据 流 分 析 之 前 、 数 据 流 分 析 之 后 
以 及 优化 结束 时 。 这 些 罕 孔 优化 包括 代数 化 简 ， 扩 展 乘 以 或 除 以 常数 的 乘 、 除 法 ， 扩 展位 和 字 
节 域 访问 为 取 字 、 抽 取 以 及 相应 位 和 字 节 域 的 扩展 ， 以 及 其 他 一 些 优化 。 

所 执行 的 全 局 优化 包含 下 述 一 些 内 容 : 
. 归纳 变量 强度 削弱 ; 
. 线性 函数 测试 替换 ; 
循环 展开 ; 
全 局 公共 子 表达 式 删除 ， 包 括 确定 那些 重新 计算 它 比 用 公共 子 表达 式 更 好 的 表达 式 ; 
循环 不 变 代码 外 提 ; 
. 全 局 复写 和 常数 传播 ; 
无 用 存储 操作 删除 ; 
基地 址 捆绑 ， 即 确定 那 种 减 去 一 个 小 常数 且 此 小 常数 足以 放 入 存 取 指 令 位 移 域 的 地 址 表 


-— 


euouunBROM 


iX; 
9. 软 流水 。 

代码 生成 器 的 设计 受到 了 Wulf 等 人 [WulJ75] 在 产品 质量 编译 器 的 编译 器 (PQCC， 
Production-Quality Compiler Compiler) 中 的 工作 和 PDP-11 BLISS 编 译 器 的 启发 。 它 由 如 下 6 遍 
组 成 : 
1. Context 1 遍 用 代码 模板 匹配 一 个 过 程 的 EIL 树 ， 每 个 结 点 的 每 一 个 模板 有 一 个 代价 。 过 
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程 对 应 的 EIL 树 的 一 个 特定 部 分 可 以 有 好 几 个 模板 一 一 实际 上 ， 每 个 结 点 大 约 有 5 到 6 个 可 应 用 
的 模板 。 然 后 Context 1 选择 一 组 对 于 整个 树 具 有 最 小 代价 的 模板 。 

2. PH, IL Scheduling 遍 对 一 个 基本 块 所 选择 的 模板 进行 充分 的 交替 分 析 ， 以 便 产 生 高 
质量 的 寄存 器 分 配 。 它 也 使 用 Sethi-Uliman 数 计算 每 一 个 表达 式 需 要 的 最 小 寄存 器 个 数 。 

3. 接 下 来 ，Context 2 遍 为 需要 临时 变量 的 对 象 创建 徇 时 变量 ， 并 计算 它们 的 生存 期 。 

4. 然后 ，Register History 遍 追踪 每 一 个 已 分 配 有 存储 单元 的 临时 变量 的 重 取 (reload), 标 
注 那 种 有 多 次 使 用 的 临时 变量 ， 以 便 可 以 将 它们 分 配 到 相同 的 寄存 器 。 

5. TN Packjiifiifig Context 1 所 选择 的 模板 中 包含 的 动作 ， 对 临时 变量 名 进行 装 包 (如 16.2 
节 介 绍 的 ) 来 进行 寄存 器 分 配 。 

6. 最 后 ，Code 遍 根据 所 选择 的 模板 和 寄存 器 分 配 流出 实际 的 目标 代码 。 

代码 生成 器 合并 一 个 编译 单位 中 所 有 过 程 的 代码 ， 产 生 一 个 可 重 定 位 目标 模块 ， 并 确定 何 
处 可 以 使 用 ( 短 位 移 ) 分 支 ， 以 及 何 处 需要 跳 转 指令 。 

最 后 ， 编 译 器 的 最 后 遍 进 行 窥 孔 优化 ， 如 机 器 方言 、 转 移 化 简 、 交 叉 转 移 以 及 代码 复制 
( 即 与 交叉 转移 相反 的 做 法 ) ; 并 利用 详细 的 机 器 模型 和 一 种 以 确定 直线 代码 关键 路 径 为 基础 
的 算法 进行 指令 调度 。 这 个 调度 器 也 进行 某 种 与 安全 前 瞻 执 行 有关 的 跨 基本 块 调度 。 

性 能 剖面 分 析 结 果 的 反馈 信息 可 用 来 指导 过 程 集成 和 对 已 生成 的 基本 块 排序 ， 并 裁剪 频繁 
调用 过 程 的 调用 约定 。 

图 21-16 给 出 了 GEM Fortran 编 译 器 对 图 21-1 中 所 示 的 函数 用 O05 优化 产生 的 汇编 语言 代码 。 
注意 ，kind 的 常数 值 已 传播 到 条 件 中 ， 并 且 已 经 删除 死 代码 ;循环 不 变量 length*width 已 
从 循环 内 移出 ; 循环 已 用 因子 5 展开 ; 所 有 局 部 变量 都 已 分 配 到 寄存 器 中 ; 并 且 已 执行 了 指令 
调度 ， 包 括 采 用 安全 前 瞻 调 度 将 取 r27 的 指令 从 后 继 基 本 块 中 前 移 到 标号 L$3 之 后 一 条 指令 的 
位 置 。 但 另 一 方面 ， 栈 帧 的 分 配 是 不 必要 的 ，area 的 计算 本 应 当归 约 成 单独 一 条 乘法 ， 对 
process () 的 尾 调 用 也 没有 优化 。 还 有 ， 其 结果 被 累加 到 一 起 以 产生 valume 值 的 那些 乘法 本 
应 当 强 度 前 能 为 加 法 。 

ldah gp, (r27) 
lda gp, (gp) 
ldq ri,8(gp) 
lda sp,-16(sp) 
ldq r0,16(gp) 
clr r16 

stq r26, (sp) 
clr ri? 

lal ri, (r1) 
ldl ro, (r0) 
mull rO,ri,rO 
clr ri 

mull r1,r0,r2 
ldq r27 , (gp) 
addi ri,1,r3 
addl ri,2,r4 
addl r1,3,r5 





图 21-16 由 GEM C 编 译 器 对 图 21-1 中 的 函数 用 05 优 化 产生 的 Alpha 汇 编 语言 


O 基本 块 中 的 一 条 指令 的 执行 总 前 驻 的 (speculative )， 如 果 该 指令 来 自 于 其 问 间 隔 有 一 个 条 件 的 后 继 基 本 块 
中 。 如 果 执 行 该 条 件 的 另 一 个 分 支 时 ,不 需要 对 该 前 瞻 指 令 的 执行 效果 进行 补偿 , 则 这 个 前 瞻 执 行 是 安全 的 。 
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ri,4,r6 
ri6,r0,ri6 
ri6,r0,ri6 
r16,r0,ri6 
ri,5,ri 
r16,0,r16 
rí6,r0,ri16 
r3,r0,r3 
ri7,r2,r2 
r4,r0,r4 
r2,r3,r2 
r1,-10,r3 
r5,r0,r5 
r2,r4,r2 
r6,r0,r6 
r2,r5,r2 


sp, 16(sp) 
r26 


图 21-16 (48) 


图 21-17 给 出 了 GEM Fortran 编 译 器 对 图 21-2 中 子 程序 s1 ( ) 用 05 优 化 产生 的 汇编 语言 。 从 
sl_ 到 L$21 的 代码 是 该 子 程序 和 循环 的 初始 化 代码 ， 从 L$13 开 始 的 代码 是 关于 外 层 循 环 的 循环 
控制 代码 。 余 下 的 是 最 内 层 循环 的 代码 。 最 内 层 循环 已 经 用 因子 4 展开 〈 代 码 开始 于 LS21) 并 
且 还 产生 了 一 个 卷 起 的 循环 副本 ， 它 开始 于 L$24。 在 这 个 卷 起 的 循环 中 有 9 条 指令 ， 因 为 没有 
实现 线性 函数 测试 替换 。 展 开 的 循环 有 21 条 指令 ， 其 中 只 有 一 条 不 是 必须 的 ， 这 也 是 因为 没有 
实现 线性 函数 测试 替换 。 局 部 变量 都 已 分 配 到 寄存 器 中 ， 并 且 已 执行 了 指令 调度 。 但 另 一 方面 ， 


没有 实现 将 过 程 sl O 集成 到 主 程序 中 。 这 样 做 





本 来 可 以 节省 调用 和 返回 开销 ， 并 且 可 以 传播 n 


的 值 (=500) 到 该 子 程序 中 ， 使 得 不 需要 最 内 层 循环 的 卷 起 循环 副本 ， 因 为 500 能 够 被 4 整除 。 


beq 
nop 
sll 
ble 
sll 
s4subq 
subq 
sll 
sll 
s4subq 





r17, (r17) 
1,r0 

2,r1 
ri7,L$4 
ri,r2 
r2,r17,r3 
r3,L$7 


r2,4,r3 

ri7,L$13 
r2,11,r5 
r3,r3,r3 
rb,r3,r3 
r0,4,r5 

r0,11,r6 
r5,r5,r5 


图 21-17 由 GEM Fortran 编 译 器 对 图 21-2 中 子 程序 sl 0 用 O5 优 化 产生 的 Alpha 汇 编 语言 
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r6,r5,r5 
subl r17,3,r6 
addq rí6,r3,r3 
addq ri6,r5,r5 
cmplt ri7,r6,r7 


mov 1,r4 
lda r3,-2000(r3) 
lda r5,-2000(r5) 
bne r7 ,L$24 
ble r6,L$24 
L$21: 141 r8,(r5) 
addl r4,4,r4 
1dl r19, (r3) 
addl r8,ri9,r8 
stl r8, (r3) 
1dl ri9,4(r5) 
1dl r8,4(r3) 
addl r19,r8,r8 
stl r8,4(r3) 
ldl r19,8(r5) 
1d1 r8,8(r3) 
addi r19,r8,r8 
stl r8,8(r3) 
1dl ri9,12(r5) 
1dl r8,12(r3) 
lda r3,16(r3) 
lda r5,16(r5) 
addl rí9,r8,r8 
cmple rá,r6,ri9 
stl r8,-4(r3) 
bne r19,L$21 
cmple r4,ri7,r8 


r8,L$13 





r7,(r5) 


addl r4,i,r4 
ldl r19,(r3) 
lda r3,4(r3) 
cmple r4,r17,r8 
ida r5,4(r5) 
addl r7,r19,r7 
stl r7,-4(r3) 
bne r8,L$24 


L$13: addl r2,1,r2 
cmple r2,ri7,r19 


bne r19,L$8 
L$7: addl r0,1,r0 
cmple r0,r17,r7 
addi ri,i,ri 
bne r7,L$5 


r26 


图 21-17 (s&) 
21.4 Intel 386 体 系 结构 上 的 Intel 参 考 编译 器 


21.4.1 tntel 386 体 系 结构 
Intel 386 体 系 结构 系列 包括 Intel 386 和 其 后 续 微 处 理 器 ， 如 486、Pentium、Pentium Pro, 





Jà 3E HE SCIES RORIS AR RGUAA 531 


它们 都 以 更 快 的 执行 方式 实现 了 本 质 上 相同 的 指令 集 ” (参见 [Pent94])。Intel 的 这 个 体系 结构 
是 彻底 的 CISC 设 计 ， 但 某 些 实现 利用 了 RISC 原 理 ， 如 流水 线 和 超标 量 ， 以 达到 显著 改善 速度 
以 超过 系列 中 以 前 成 员 的 目的 。 它 的 体系 结构 在 很 大 程度 上 受到 了 要 求 与 早期 的 Intel 处 理 器 ， 
如 8086， 向 上 兼容 的 限制 ， 其 中 8086 只 包含 了 字 节 和 半 字 数据 ， 以 及 一 个 相当 难 用 的 分 段 寻 址 
配置 。 我 们 只 讨论 几 种 兼容 的 特征 。 

Intel 386 体 系 结构 有 8 个 32 位 的 整数 寄存 器 ， 名 字 为 eax、ebx、ecx、edx、ebp、esPp、 
esi 和 eqQi。 每 一 个 寄存 器 的 低 16 位 另 有 一 个 名 字 ， 这 个 名 字 是 8086 中 的 名 字 ， 并 且 只 由 指令 
集中 的 8086 子 集 使 用 。 每 一 个 16 位 寄存 器 的 名 字 是 32 位 寄存 器 名 去 掉 e 字 母 。 前 4 个 16 位 寄存 
器 的 每 一 个 又 进一步 分 为 两 个 字 节 寄存 器 ， 如 ah 和 al ， 它 们 分 别 构成 了 ax 的 高 部 和 低 部 。 此 
外 ， 有 6 个 32 位 的 段 寄 存 器 ， 用 于 计算 取 、 存 、 分 支 和 调用 有 关 的 地 址 。 这 些 寄存 器 中 有 一 些 
有 专门 的 用 途 ， 例 如 ebp 和 esp ， 它 们 分 别 指 向 当前 栈 帧 的 基 址 和 栈 顶 ， 而 其 他 的 专门 用 在 某 
些 类 别 的 指令 中 ， 如 ecx、esi 和 edi 用 在 操作 字符 串 的 指令 中 。 

存储 器 地 址 由 一 个 段 寄 存 器 (多数 情况 下 它 是 由 指令 类 型 选择 的 )、 一 个 基 寄 存 器 、 一 个 
可 选 的 带 缩放 的 (1、2、4、8 倍 ) 索引 寄存 器 ， 以 及 一 个 8 位 或 32 位 的 位 移 组 成 ， 其 中 每 一 个 
部 分 都 是 可 选 的 (但 至 少 必须 有 一 个 部 分 )。 

条 件 控制 是 通过 比较 操作 来 实现 的 ， 这 个 操作 设置 一 个 标志 寄存 器 中 的 某 些 位 ， 并 根据 它 
们 进行 分 支 转移 。 

该 体系 结构 包括 的 指令 有 数据 传送 〈 在 寄存 器 和 存储 器 之 间 、 寄 存 器 与 寄存 器 之 间 )， 还 
辑 、 移 位 和 旋转 操作 ， 条 件 和 无 条 件 转移 ， 调 用 和 和 返回， 循环 控制 ， 字 符 串 管理 ， 过 程 入 口 和 
出 口 ， 浮 点 ， 字 节 转 换 ， 字 节 交 换 和 系统 控制 。 

浮 点 程序 设计 模式 包括 8 个 80 位 的 浮 点 寄存 器 。 浮 点 格式 有 32 位 的 单 精 度 、64 位 的 双 精 度 
和 80 位 的 扩展 精度 。 所 有 数据 一 旦 被 取 到 寄存 器 便 被 转换 成 
扩展 精度 ， 并 且 当 存储 时 可 以 转换 回 原来 的 精度 。 除 了 浮 点 
取 和 存 、 算 术 和 比较 运算 ， 以 及 转换 之 外 ， 有 取 7 个 特殊 党 
数 (例如 r) 中 任意 一 个 常数 的 指令 ， 以 及 执行 三 角 、 指 数 、 过 程 间 优化 器 
对 数 运算 的 指令 。 

Intel 体 系 结构 的 多 数 指令 有 两 个 操作 数 ， 尽 管 也 有 相当 的 指 
令 只 有 一 个 或 没有 操作 孝 。 在 较 典 型 的 两 操作 数 情 况 下 ， 第 一 个 | 
操作 数 一 般 作为 第 一 个 源 操 作 数 ， 第 二 个 操作 数 既 是 第 二 个 源 操 
作 数 ， 也 是 目的 操作 数 ， 并 且 在 汇编 语言 中 也 按 此 顺序 书写 。 所 
允许 的 操作 数 类 型 随 指令 的 不 同 而 不 同 ， 但 在 多 数 情 况 下 ,一 个 ”| 全 局 优化 器 
操作 数 可 以 是 存储 器 地 址 、 寄 存 器 或 常数 ， 而 另 一 个 可 以 是 常数 
或 寄存 器 。 关 于 其 汇编 语言 的 进一步 细节 请 参见 附录 A.4。 
21.4.2 ”Inte| 编 译 器 

Intel 为 386 体 系 结构 系列 提供 了 称 之 为 参考 编译 器 
(reference compiler) 的 C、C++、Fortran 77 和 Fortran 90 编 译 器 。 

这 些 编译 器 的 结构 采用 混合 方式 的 优化 组 织 ， 其 结构 如 可 重 定位 的 
图 21-18 所 示 。 每 一 个 编译 器 由 一 个 特定 语言 的 前 端 (来 源 
于 Multiflow 和 Edison Design Group). 、 过 程 间 优化 、 存 储 优 图 21-18 Intel 参 考 编译 器 结构 








IL-1 + IL-2 


IL-1 + IL-2 


IL-1 + IL-2 


代码 生成 器 


© Pentium Pro 实 际 土 有 一 些 新 的 指令 ， 包 括 整 数 和 浮 点 条 件 传送 ， 以 及 一 个 设置 整数 条 件 码 的 浮 点 比较 指令 。 
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化 、 全 局 优化 以 及 一 个 代码 生成 器 组 成 ， 其 中 代码 生成 器 由 代码 选择 、 寄 存 器 分 配 和 指令 调度 
三 遍 组 成 。 过 程 间 优 化 和 存储 优化 是 1991 年 增加 进来 的 , 同时 还 有 重新 设计 的 一 个 代码 生成 器 ， 
称 为 Proton， 其 目的 是 为 了 增加 Pentium 处 理 器 和 它 的 下 一 代 处 理 器 的 优化 范围 。 从 那 时 起 ， 全 
局 优化 器 就 基于 部 分 元 余 代 码 删除 广泛 地 进行 了 重 写 。 

前 端 产生 称 为 IL-1 的 中 级 中 间 代 码 ， 它 包括 某 些 值得 注意 的 特征 、 如 数组 索引 ， 它 由 基于 
指针 的 数组 遍历 重新 生成 ， 其 形式 与 在 C 和 C++ 中 可 以 出 现 的 形式 相同 。 图 21-19 给 出 了 图 21-2 
中 主 程序 对 应 的 IL-1 代 码 (由 Fortran 前 端 产 生 ) 作为 例子 。 其 中 一 些 运算 符 的 含义 如 下 : 

1. 指令 1 中 的 ENTRY 表 示 过 程 的 入 口 。 

2. 指令 3、9、25 和 29 中 的 SSTORE 表 示 存 储 一 个 整数 到 存储 器 。 

3.. 指 令 20 中 的 VOGEN 和 指令 21 中 的 ASTORE 分 别 表示 生成 一 个 数组 下 标 和 存储 到 索引 所 指 
的 数组 位 置 。 

4. 指令 5 和 11 中 的 LOOP_BEGIN 表 示 一 个 循环 的 开始 。 

5. 在 第 7 行 和 13 行 的 IF_REL .LE 表示 一 个 循环 的 关闭 测试 。 


Entry bblocks: O(MAIN) 


BBLOCK 0: (an entry bblock), preds: , succs: 1, stats: 

1 ENTRY.ARGS REGS.ENT GLOBAL 

3 SSTORE.SI32 5 1(SI32) __1.MAIN.k 

BBLOCK 1: preds: 0 6, succs: 4 2, stats: 

5 LOOP_BEGIN 5 500 

6 SLOAD.ND.NREG.SI32 5 tO __1.MAIN.k 

7 IF.REL.LE.SI32 5 99% 0% tO 500(SI32) 

BBLOCK 2: preds: 1, succs: 3, stats: 
31 CALL.ARGS_REGS.CALLER_SAVES s1 
BBLUCK 3: preds: 2, succs: , stats: 

33 RET.Sr 

BBLOCK 4: preds: 1, succs: 5, stats: 
9 SSTORE.SI32 6 1(SI32) |. 1.MAIN.1 
preds: 4 7, succs: 7 6, stats: 
LOOP BEGIN 6 500 
SLOAD.ND.NREG.SI32 6 tl __1.MAIN.1 
IF_REL.LE.SI32 6 99% 0% tt 500(SI32) 
6: preds: 5, succs: 1, stats: 
SLOAD.ND.NREG.SI32 5 tíO | 1.MAIN.k 
GADD.SI32.5 t11 2 [t10,1(SI32)] 
SSTORE.SI32 5 t11 __1.MAIN.k 
BBLOCK 7: preds: 5, succs: 5, stats: 

15 SLOAD.ND.NREG.SI32 7 t2 | 1.MAIN.k 
SLUAD.ND.NREG.SI32 7 t3 __1.MAIN.1 
GADD.SI32 7 t4 2 [t2,t3] 
SLOAD.ND.NREG.SI32 7 t5 | 1.MAIN.k 
SLOAD.ND.NREG.SI32 7 t6 __1.MAIN.1 
VOGEN.2 7 t7 __1.MAIN.a 2 
ASTORE.2.8I32 7 t4 __1.MAIN.a t7 2 
SLOAD.ND.NREG.SI32 6 t8 | 1.MAIN.1 
GADD.SI32 6 t9 2 [t8,1(SI32)] 
SSTORE.SI32 6 t9 , 1.MAIN.1 





图 21-19 图 21-2 中 主 程序 由 Fortran 前 端 产生 的 IL-1 形 式 
结果 操作 数 第 一 个 出 现在 运算 符 之 后 ， 后 面 是 源 操作 数 。 注 意 ST32 限 定 符 使 得 操作 数 是 
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32 位 整数 ，IF_REL 运 算 符 包含 两 个 分 支 的 预期 执行 频率 。 

只 有 一 个 可 选择 的 全 局 优化 级 别 (不 包括 不 优化 )， 过 程 间 优 化 和 存储 优化 使 用 另外 独立 
的 选项 。 

过 程 间 优 化 器 跨 文 件 进行 优化 (通过 保存 每 一 个 过 程 的 IL-1 形 式 )， 并 可 以 由 执行 剖面 分 
析 的 结果 来 驱动 。 它 执行 一 系列 的 分 析 ， 这 些 分 析 收 集 与 过 程 使 用 有 关 的 信息 ， 以 及 它们 的 某 
些 特 征 信息 ， 如 它们 的 大 小 、 常 数 参 数 、 以 及 模块 级 静态 变量 的 使 用 。 过 程 间 优化 器 然后 执行 
一 系列 的 优化 ， 包 括 内 联 、 过 程 克 隆 、 参 数 替换 和 过 程 间 常 数 传播 (参见 19.3 节 )。 指 导 内 联 
的 是 过 程 是 否 在 循环 内 被 调用 、 循 环 体 的 代码 大 小 ， 以 及 是 否 出 现 有 常数 值 参数 ， 并 且 既 考虑 
到 有 利于 存储 优化 又 考虑 了 有 利于 减少 调用 开销 。 过 程 克隆 创建 过 程 的 各 种 副本 ， 这 些 副本 有 具 
有 不 同 的 常数 参数 ， 因 此 有 可 能 使 得 循环 和 数组 的 边界 是 已 知 常数 。 参 数 替换 追踪 常数 值 实 参 
数 ， 并 传播 它们 到 使 用 它 的 旺 参 数 。 过 程 间 优化 器 也 能 够 判别 出 传递 给 特定 过 程 的 实 参 在 寄存 
器 中 而 不 是 在 运行 栈 中 (UNIX 除 外 ， 它 的 应 用 程序 二 进 制 接口 要 求 将 它们 传递 在 栈 中 )。 

过 程 间 优化 器 的 输出 是 一 种 较 低 级 的 IL-1 版 本 ， 叫 做 下 -2， 它 带 有 下 -1 的 程序 结构 信息 ， 
这 种 中 间 形 式 用 于 编译 器 余下 的 主要 部 分 ， 直 到 用 作 代 码 生成 器 的 输入 。 图 21-2 中 主 程序 的 最 
内 县 循环 的 IL-2 形 式 (在 优化 之 后 ) 如 图 21-20 所 示 。 结 果 操 作 数 在 前 ， 之 后 是 运算 符 ， 其 后 
是 源 操作 数 。 注 意 ， 多 数 运算 符 的 操作 级 别 都 降低 了 ， 下 标 已 经 扩展 成 地 址 计算 (尤其 注意 第 
23 行 )， 并 且 已 执行 了 循环 倒置 和 代码 外 提 。 

BBLOCK 7: preds: 7 4, succs: 7 9, stats: 
26 LOOP_BEGIN 6 500 
30 ADD.SI32 7 t6 t4 t5 


25 ASSIGN.N32 7 t14 500(SI32) 
29 IMUL.SI32 7 t7 t14 t5 


24 ADD.SI32 7 t8 t4 t7 


23 SST.SI32 7 t6 t8 (addr(__1.MAIN.a) (P32) - 2004(SI32)) (P32) . 1.MAIN.a 
21 ADD.SI32 6 t5 1(SI32) t5 
2 IF REL.GE.SI32 6 99% 0% 500(SI32) t5 
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过 程 内 数据 流 分 析 作 为 存储 优化 或 全 局 优化 的 第 一 步 ， 这 两 种 优化 谁 先 进行 取决 于 所 选择 
的 编译 选项 。 它 包括 将 循环 转换 成 规范 形式 和 表示 它们 的 供 套 结构 。 

存储 优化 器 关注 于 改善 存储 器 和 高 速 缓存 的 使 用 ， 执 行 的 几乎 全 是 循环 转换 。 它 首先 执行 
基于 SSA 的 稀有 条 件 常数 传播 (参见 12.6 节 ) ， 然 后 用 Banerjee 测 试 [Bane88] 对 已 知 边 界 的 循环 
进行 数据 依赖 关系 分 析 。 在 依赖 关系 分 析 之 前 ， 先 运行 称 为 “循环 净化 ”(loop cleanup) 的 一 
遍 , 尝 试 使 得 循环 嵌 套 成 为 理想 的 嵌 套 ， 并 使 其 边界 和 跨 步 成 为 已 知 常数 。 可 施加 的 转换 有 循 
环 交换 、 循 环 分 布 、 循 环 分 块 (strip mining )、 软 预 取 、 铺 砌 、 以 及 可 选 循环 (alternate loop) 
的 创建 。 其 中 最 后 一 种 方法 处 理 这 种 循环 ， 如 果 它 们 的 循环 体 满 足 某 种 依赖 (或 不 依赖 ) 关系 ， 
则 可 执行 重要 的 优化 ， 但 是 判别 这 种 依赖 关系 的 条 件 所 依赖 的 信息 只 在 运行 时 才能 得 知 。 瓦 片 
循环 的 大 小 用 Lam、Rothberg 和 Wolf [LamR91] 开 发 的 技术 进行 选择 。 存 储 优化 器 计算 的 迭代 距 
离 被 传递 给 代码 生成 器 控制 循环 展开 和 代码 调度 。 注 意 ， 由 过 程 间 优化 器 执行 的 过 程 内 联 和 过 
程 克 隆 导致 更 多 的 循环 可 通过 依赖 关系 测试 算法 ， 从 而 增加 了 存储 优化 的 有 效 性 。 
i 全 局 优化 器 做 一 系列 的 数据 流 分 析 和 关于 边界 已 知 循环 的 Banerjee 数 组 依赖 关系 测试 、 后 
者 识别 访问 存储 器 的 顺序 限制 。 数 据 流 分 析 采 用 Lengauer 和 Tarjan 的 方法 (参见 7.3 节 ) 通过 确 
定 必 经 结 点 和 回 边 来 进行 。 别 名 分 析 假 定 所 有 指针 引用 会 相互 冲突 , 但 Fortran 的 参数 引用 除外 ， 
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因为 该 语言 标准 规定 如 此 。 全 局 优化 器 执行 的 优化 依次 是 : 

1. 提升 局 部 和 文件 级 的 静态 变量 作为 寄存 器 分 配 的 候选 ; 

2. 常数 传播 ; 

3. 死 代码 删除 ; 

4. 局 部 公共 子 表 达 式 删除 ; 

5. 复写 传播 ; 

6. 部 分 宛 余 删除 ; 

7. 第 二 遍 复 写 传播 ; 

8. 第 二 遍 死 代码 删除 。 

代码 生成 器 叫做 Proton ， 它 使 用 自己 的 中 间 形 式 ， 称 为 Proton IL (PIL)。 直 接 转换 图 21-20 

的 IL-2 得 到 的 PIL 代 码 如 图 21-21 所 示 。 它 的 操作 是 三 元 式 ， 其 中 ， 源 操作 数 在 运算 符 之 后 ， 结 

果 用 三 元 式 编号 来 表示 。 例 如 ， 第 3 行 加 第 2 行 和 第 1 行 的 结果 ， 第 7 行 存储 第 3 行 的 结果 于 指定 
的 存储 器 位 置 ， 此 位 置 以 三 元 式 6 的 结果 为 索引 并 具有 一 个 由 三 元 式 4 的 结果 给 出 的 偏 移 量 。 
imerge 运 算 符 是 一 个 SSA 形 式 的 % 函 数 。 


esp based stack 
Stack frame size: 8 


BLOCK=3 Phys.pred-2 Phys_succ=4 Loop=2 
CFlow preds- B3 B2 

CFlow succs- B3 B4 

opcode opi op2 

imerge B2.1 8 

imerge B1.3 B4.2 

add 2 1 

movi $500 

imul 

add 5 

st . . 1. MAIN.LOCALSTATIC.a-2004(6,4) 
addi $1 

movi 

cjge 8 B3 p70% m0% 


w 


B 
1 
2 
3 
4 
5 
6 
7 
8 
9 
1 


e 





图 21-21 图 21-2 中 主 程 序 的 内 层 循环 从 图 21-20 的 于-2 形 式 转换 到 PIL 形 式 之 后 


Proton 执 行 指令 选择 、 寄 存 器 分 配 、 指 令 调度 和 一 系列 的 低级 优化 ， 这 4 个 任务 合 在 一 起 
成 为 一 个 重要 的 部 分 。 首 先 做 的 是 形成 CISC 形 式 的 地 址 。 这 是 一 个 不 那么 简单 的 工作 ， 因 为 
地 址 可 以 由 基地 址 寄存 器 、 变 址 寄存 器 、 编 放 因子 以 及 位 移 组 成 ， 并 且 在 该 体系 结构 较为 先进 
的 实现 中 ， 地 址 计算 可 以 与 其 他 操作 并 行 执行 。 优 化 是 通过 沿 du 链 应 用 罕 孔 优化 来 进行 的 。 归 
纳 变量 优化 也 在 代码 选择 之 前 进行 ， 以 便 形成 与 体系 结构 对 应 的 代码 。 

指令 选择 相对 较 直 接 ， 但 指令 归并 除外 。 指 令 归 并 是 由 少数 可 用 的 寄存 器 以 及 在 Pentium 
及 其 后 继 处 理 器 上 并 行 运行 指令 的 可 能 性 来 驱动 的 。 例 如 ， 存 储 器 与 存储 器 加 和 取 - 加 - 存 序 
列 在 Pentium 上 都 需要 3 个 时 钟 周期 ， 但 是 后 者 在 双流 水 的 实现 中 更 有 可 能 与 其 他 指令 组 成 对 。 
作为 另 一 个 例子 ，PIL 将 一 字 节 符号 扩展 操作 表示 成 一 个 取 后 随 一 个 左 移 24 位 和 一 个 右 移 24 位 ， 
但 是 使 用 这 个 体系 结构 的 带 符号 扩展 的 取 指令 在 某 些 情况 下 需要 的 时 钟 周期 更 少 。 类 似 地 ， 生 
成 包括 一 个 基 址 、 一 个 变 址 和 一 个 位 移 的 有 效 地 址 ， 可 以 如 前 面 指出 的 ， 用 一 条 没有 结果 寄存 

器 的 指令 ， 但 是 也 可 以 用 将 两 个 寄存 器 相 加 并 将 结果 放 至 一 个 寄存 器 的 指令 一 一 如 果 这 个 地 址 
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使 用 多 次 ， 并 且 如 果 有 一 个 寄存 器 可 以 用 来 存放 它 ， 这 种 方法 可 能 就 更 划算 。 

寄存 器 分 配 采 用 基本 块 内 的 局 部 方法 与 Chaitin 风 格 的 跨 基本 块 的 图 着 色 方 法 相 结合 的 方 
式 。 代 码 生 成 根据 给 定 程 序 的 循环 结构 将 寄存 器 划分 为 局 部 的 和 全 局 的 。 具 有 高 执行 频率 CB 
期 的 或 实测 的 ) 循环 的 程序 分 配给 局 部 使 用 的 寄存 器 较 多 ， 并 且 寄 存 器 分 配 是 从 循环 的 最 内 层 
由 里 向 外 进行 。 

8 个 浮 点 寄存 器 组 成 的 栈 结构 限制 了 寄存 器 分 配 的 效率 ， 因 为 为 了 使 得 它们 的 栈 相 匹配 ， 
需要 进行 路 径 合并 。 但 是 ， 在 Pentium 和 Pentium Pro 中 ，fxch ( 浮 点 寄存 器 内 容 交换 ) 指令 可 
以 在 V 流 水 线 以 0 结果 延迟 执行 ， 因 此 至 少 在 基本 块 内 可 以 将 浮 点 栈 看 成 是 一 个 寄存 器 集合 。 
在 486 处 理 器 上 情况 则 不 同 ， 它 的 Exch 需 要 4 个 时 钟 周期 ， 将 浮 点 栈 作 为 等 价 的 寄存 器 集合 是 
十 分 不 利 的 。 

整数 寄存 器 的 全 局 分 配 似乎 有 很 大 的 不 确定 性 ， 因 为 只 有 8 个 32 位 的 寄存 器 ， 且 它们 之 中 
的 若干 个 还 有 专门 的 用 途 。 但 是 这 些 32 位 的 寄存 器 中 有 4 个 其 低 部 16 位 可 作为 一 对 字 节 寄存 器 ， 
因此 增加 了 可 用 寄存 器 个 数 ; 另外 ， 只 有 栈 指针 寄存 器 是 固定 专用 的 ， 不 能 用 于 其 他 目的 。 此 
外 ， 尽 管 8 个 寄存 器 肯定 不 如 32 个 更 有 用 ,但 全 局 寄存 器 分 配 研究 已 证 明 8 个 寄存 器 毕竟 比 1 个 
或 2 个 寄存 器 要 好 得 多 。 

指令 调度 采用 表 调 度 方法 并 包括 局 部 寄存 器 分 配 ， 其 风格 很 像 Goodman 和 Hsu [GooH88] 开 
发 的 方法 。 它 基本 上 每 次 只 处 理 一 个 基本 块 ， 尽 管 在 有 限 程度 上 也 考虑 了 前 驱 和 后 继 基本 块 。 
调度 主要 是 表 驱 动 的 ， 因 为 其 体系 结构 的 不 同 实现 在 流水 线 组 织 和 指令 时 间 上 有 很 大 的 不 同 。 
例如 ，386 完 全 没有 流水 线 ， 而 Pentium 有 双流 水 线 ，Pentium Pro 具 有 消除 了 相互 间 影 响 且 具有 
乱 序 执行 能 力 的 多 个 流水 线 。 

代码 生成 器 中 执行 的 低级 优化 包括 如 下 : 

1. 归纳 变量 优化 ， 如 前 面 提 到 的 ， 优 化 寻 址 模式 和 寄存 器 的 使 用 ， 强 度 削 弱 ， 线 性 函数 而 
试 替换 ， 包 括 用 移 位 和 加 法 替代 乘法 。 

2. 机 器 方言 ， 沿 du 链 寻 找 加 1 和 减 1 指 令 并 用 自 增 和 自 减 指令 替代 它们 。 

3. 将 循环 对 齐 在 高 速 缓存 的 边界 。 

4. 转换 对 半 字 操作 数 运 算 的 所 谓 的 前 组 指令 到 对 应 的 字 节 或 字形 式 ， 这 种 形式 在 Pentium 
和 较 新 的 实现 上 执行 得 更 快 。 

5. 代码 重 选择 ， 在 寄存 器 压力 希望 这 样 做 或 迫使 它 必 须 这 样 做 的 地 方 ， 用 基于 存储 器 的 操 
作 数 替换 寄存 器 与 寄存 器 操作 的 指令 序列 。 

6. 沿 窗 口 调 度 线 进 行 软 流水 (参见 17.4 节 )。 

7. 重 结合 ， 将 循环 不 变量 运算 集中 到 一 起 并 从 包含 它们 的 循环 中 移出 。 

8. 循环 展开 。 

9. 伸 直 化 和 基本 块 重 排 ， 以 允许 短 分 支 指令 。 

代码 生成 器 包括 一 个 为 UNIX 系 统 产生 位 置 无 关 代码 的 选项 ， 并 且 公 共 子 表达 式 删 除 同 处 
理 其 他 表达 式 一 样 ， 也 作用 于 GOT 引 用 (参见 5.7 节 )。 

图 21-1 中 C 程 序 例 子 的 Pentium 汇 编 代 码 如 图 21-22 所 示 。 注 意 ，kindq 的 常数 值 已 传播 到 条 
件 中 ， 并 且 已 删除 了 死 代 码 ， 循 环 不 变量 length*width 也 已 从 循环 内 移出 ， 乘 以 height 的 
乘法 已 强度 前 弱 为 加 法 ， 局 部 变量 已 分 配 到 寄存 器 中 ， 指 令 调度 也 已 执行 。 但 另 一 方面 ， 循 
环 没 有 展开 ， 没 有 优化 对 process O 的 尾 调用 ， 并 且 对 area 的 累加 本 来 应 当 转 换 成 单一 乘法 


指令 。 


- 
© 
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%ebp 
%esp,%ebp 
$3 ,yesp 
$-8 ,yesp 
$4, esp 
Vedi 

yesi 

Yebx 
$8,%esp 
length ,%esi 
Yebx , hebx 
width, %esi 
hesi ,yedi 
ecx, hecx 
$-10, hedx 
Weax ,,eax 
esi, hecx 
eax, Lebx 
edi , eax 
hedx 

.B1.2 
%ecx, (hesp) 
Vebx,4 CL esp) 
process 
Yeax ,yeax 
Wedx 

Yecx 

hebx 

Yesi 

yedi 

yebp ,yesp 
Yebp 





图 21-22 ”由 Intel 参 考 编译 器 产生 的 图 21-1 中 C 程 序 的 Pentium 汇 编 代 码 


图 21-23 和 图 21-24 所 示 的 Pentium 汇 编 代 码 是 Fortran 77 编 译 器 在 过 程 间 优化 、 存 储 优化 和 
全 局 优化 都 起 作用 的 情况 下 ， 由 图 21-2 中 的 例 程 序 产生 的 ， 但 我 们 省 略 了 主 程序 中 做 初始 化 的 
那个 循环 ， 以 及 s1 O 中 除 最 内 层 循环 之 外 的 其 他 所 有 部 分 。 因 为 s1 0 已 被 内 联 ， 编 译 器 可 以 
利用 n 的 值 是 500 的 信息 ， 从 而 使 得 它 可 在 循环 控制 中 使 用 常数 值 。 最 内 层 循 环 (开始 
于 .B2.9) 没有 被 展开 ， 但 对 它 执行 了 线性 函数 测试 殖 换 。 局 部 变量 都 已 分 配 到 寄存 器 中 ， 除 
最 内 层 循环 之 外 ， 其 他 地 方 的 代码 完全 是 CISC 风 格 的 。 

但 是 ， 该 编译 器 为 s1 () 和 主 程序 都 产生 了 代码 ， 尽 管 这 是 不 必要 的 一 一 主 程序 显然 只 调 
了 s10) ， 而 sl1() 没 有 调 其 他 过 程 。 另 外 ， 对 同样 的 循环 媒 套 而 言 ， 为 sl1 O 生成 的 代码 和 为 
主 程序 生成 的 代码 之 间 存 在 一 些 有 意思 的 差别 。 在 主 程序 的 代码 中 ， 循 环 没有 被 展开 ， 并 且 是 
CISC 风 格 ; 而 在 子 程序 的 代码 中 ， 循 环 已 用 因子 4 展开 〈 从 标号 .B1 .7 开始 ) ， 并 且 完 全 是 
RISC 风 格 的 代码 。 注 意 到 该 循环 除了 展开 的 版 本 外 还 有 一 个 卷 起 的 版 本 (开始 于 标号 .B1.18)， 
可 以 看 出 它 没有 做 过 程 间 常数 传播 。 根 据 [Sava95] 的 解释 ， 这 种 情形 是 因为 做 了 过 程 内 联 而 没 
有 创建 s1 () 的 克隆 。 另 外 ， 该 编译 器 根据 在 双流 水 线 中 形成 成 对 指令 的 机 会 在 CISC 和 RISC 风 
格 的 代码 生成 之 间 进 行 选择 ; 如 果 不 能 成 对 ， 则 生成 CISC 风 格 的 指令 。 展开 子 程序 中 的 最 内 
层 循环 创造 了 成 对 组 成 指令 的 机 会 ， 因 此 产生 了 RISC 风 格 的 代码 。 
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-2004 (ecx) ,Yedx 
-2004 (Jeax) , hebx 
Yebx , ,edx 

Yedx ,-2004 (%eax) 
-2000 (%ecx) , fedx 
-2000 (eax) ,%ebx 
Yebx ,yedx 

Yedx ,-2000(Yeax) 
-1996 (A ecx) ,yedx 
-1996 (eax) ,%ebx 
Yebx ,yedx 
Yedx , -1996 (%eax) 
~1992(%ecx) ,yedx 
-1992 (Yeax) ,yebx 
$16 ,yecx 

Yebx ,Xedx 

Yedx ,-1992(%eax) 
16(%esp) ,Xedx 
$16 ,%eax 

Yedx ,heax 

.B1.7 

Yebp , ,eax 

.B1.8 

-2004 (%ecx) ,%edx 
-2004 (Yeax) ,yebx 
Yebx ,yedx 

$4, %ecx 

Yedx ,-2004 (eax) 
$4, %eax 
hebp , ,eax 

.B1.18 

8(%esp) ,%ebx 


hesi 

%ebp 

Yebx 

$2000 ,yebx 
$1, %ebp 


$1, %esi 

$500, %ebp 
1Chesi) , Zeax 

$500, Zeax 

.B2.12 

Yeax ,yedx 

$2, %edx 

eax , ,edx 

(Yeax ,Yedx ,8) , feax 
(Yeax ,Yeax ,4) ,Xebx 
$4 ,%ebx 


图 21-24 由 Intel 参 考 编译 器 产生 的 图 21-2 中 Fortran 77 程 序 的 主 程序 的 Pentium 汇 编 代码 
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$-500,%eax 

ebp, %ecx 

$2, %ecx 
..1.MAIN.LOCLSTATC.a.1.0(%ecx,%eax,4),%edx 
Wedx,..1.MAIN.LOCLSTATC .a.1.0(%ebx, eax,4) 
yeax 


.B2.9 
$2000, %ebx 
$1000000, %ebx 


.B2.8 
%esi 
$500, Zebp 
$500 ,Zesi 
.B2.6 
%ebx 
ebp 

%esi 





21-24 (2%) 
21.5 “小结 
表 21-1 中 总 结 了 这 4 个 编译 器 中 每 一 个 关于 第 一 个 例 程序 (C) 的 特征 ， 表 21-2 中 总 结 了 它 
们 关于 第 二 个 例 程序 (Fortran) 的 特征 。 
表 21-1 4 个 编译 器 关于 C 例 程序 的 比较 





Sun SPARC IBM XL DEC GEM Intel 386 系 列 
kind 的 常数 传播 yes yes yes yes 
死 代码 删除 almost ali yes yes yes 
循环 不 变 代码 外 提 yes yes yes yes 
heignt 的 强度 削弱 yes yes no yes 
area 计 算 的 归 约 no no no no 
循环 展开 因子 4 2 5 none 
卷 起 的 循环 yes yes no yes 
寄存 器 分 配 yes yes yes yes 
指令 调度 yes yes yes yes 
已 删除 栈 帧 yes no no no 
已 优化 尾 调用 yes no no no 





表 21-2 4 个 编译 器 关于 Fortran 例 程序 的 比较 





Sun SPARC IBM XL DEC GEM Intel 386 系 列 

a (i) 的 公共 子 表达 式 地 址 yes yes yes yes 
s1() 过程 集成 yes no no yes 
循环 展开 因子 4 2 4 none 

卷 起 的 循环 yes yes yes yes 

最 内 层 循环 的 指令 21 9 21 4 

线性 函数 测试 赫 换 no no no yes 

软 流 水 yes no no no 

寄存 器 分 配 yes yes yes yes 
指令 调度 yes yes yes yes 


删除 子 程序 s1 () no no | 7 mo no 
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21.6 编译 器 设计 和 实现 未 来 的 趋势 


关于 高 级 编译 器 设计 和 实现 的 未 来 ， 有 几 个 显然 的 主要 趋势 : 

1. SSA 形 式 将 被 越 来 越 多 的 优化 采用 ， 主 要 是 因为 它 允 许 原来 设计 作用 于 基本 块 或 扩展 基 
本 块 的 方法 可 以 作用 于 整个 过 程 ， 并 且 它 一 般 能 导致 性 能 有 显著 的 额外 改善 。 

2. 部 分 元 余 删 除 会 使 用 得 更 频繁 ， 部 分 因为 它 的 现代 版 本 非常 高 效 ， 而 且 也 比 原来 的 形式 
效果 好 得 多 ， 另 外 也 因为 它 的 数据 流 分 析 为 人 们 构思 其 他 优化 和 执行 其 他 优化 提供 了 一 个 基础 。 

3. 诸如 SSA 形 式 和 部 分 元 余 删除 的 技术 结合 到 一 起 将 产生 能 改善 其 能 力 、 效 率 和 /或 速度 的 
优化 版 本 。 

4. 某 些 面向 标量 的 优化 ， 包 括 我 们 涉及 到 的 大 部 分 优化 ， 将 与 并 行 化 和 向 量化 更 为 紧密 地 (744 
集成 到 一 起 产生 并 行 编译 系统 。 745 

5. 数据 依赖 测试 、 高 速 缓存 优化 和 软 流水 在 下 一 个 十 年 都 将 会 有 显著 的 进展 。 

6. 在 标量 编译 中 最 活跃 的 研究 领域 是 并 且 仍 将 继续 是 优化 。 

所 有 这 些 趋 势 的 例子 都 可 以 在 关于 程序 设计 语言 实现 年 会 所 发 表 的 论文 中 看 到 。 


21.7 进一步 阅读 
正式 介绍 本 章 所 讨论 的 处 理 器 体系 结构 的 技术 资料 如 下 : 


体系 结构 文献 


SPARC Version 8 [SPAR92] 
SPARC Version 9 [WeaG94] 


POWER [POWE90] 
PowerPC [Powe93] 
Alpha [Alph92] 


Intel 386 family — [Pent94] 
已 出 版 的 介绍 这 些 编译 器 套件 的 有 关 文 献 是 : 


编译 器 . 文献 
Sun SPARC compilers [Much88] 
Digital's GEM compilers [BliC92] 
Intel 386 family reference compilers —— [Inte93] 


不 幸 的 是 ， 没 有 已 出 版 的 关于 IBM XL 编译 器 的 更 深入 的 介绍 ， 尽 管 [BerC92]、[GolR90]、 
[OBrH90] 和 [War90] 介 绍 了 它 的 某 些 方面 。IBM 区 .编译 器 和 它 的 中 间 语 言 XIL 和 YIL 是 在 [OBrO95] 中 
讨论 的 。[BerG89] 集 中 讨论 了 寄存 器 分 配器 ，[War90]、[GolR90] 和 [BerC92] 集 中 介绍 了 指令 调度 。 

AT&T 的 C++ 规范 是 [E11S90]。IBM 的 PL.8 语 言 的 概要 介绍 是 在 [AusH82] 中 找到 的 。 

IBM 801 RISC 系 统 的 有 关 介 绍 见 [Radi82] 和 [Hopk87]。 

Banerjee 的 关于 已 知 边 界 循环 的 数组 依赖 关系 测试 ， 其 介绍 见 [Bane88]。Banerjee-Wolfe 测 
试 是 在 [Wolf89b] 中 找到 的 。 

Sun 的 编译 和 操作 系统 对 动态 连接 支持 的 描述 是 在 Gingell 等 人 [GinL87] 的 论文 中 找到 的 。 

GEM 编 译 器 中 的 数据 流 分 析 利 用 了 Reif 和 Lewis 在 [ReiL77] 和 [ReiL86] 中 介绍 的 符号 执行 方 
法 。GEM 代 码 生 成 器 是 根据 PDP-11 BLISS 编译 器 [WulJ75] 中 的 思想 设计 的 。 

UNIX 系 统 V 版 本 4 关于 Intel 386 系列 的 ABI 增 补 是 [UNIX93]。Intel 编 译 器 选择 循环 瓦 片 大 
小 使 用 了 由 Lam、Rothberg 和 Wolf 开 发 的 技术 (参见 [LamR91] 和 [WolL91])。Goodman 和 Hsu 的 
将 指令 调度 与 局 部 寄存 器 分 配 结合 的 技术 ， 其 介绍 见 [GooH88]。 746 





附录 A 本 书 使 用 的 汇编 语言 指南 


在 这 个 附录 中 , 我 们 对 本 书 例子 中 用 到 的 每 一 种 体系 结构 的 汇编 语言 给 出 一 个 简要 的 描述 。 
这 些 描述 并 不 是 汇编 语言 的 手册 一 一 它们 提供 的 信息 仅 够 阅读 我 们 的 例子 。 


A.1 Sun SPARC V8 和 V9 汇编 语言 





在 SPARC 汇 编 语 言 中 ， 


条 指令 由 一 个 以 冒号 结束 的 可 选 标号 域 、 一 个 操作 码 、 以 逗号 分 


隔 的 操作 数 ， 以 及 一 个 以 惊叹 号 开始 的 可 选 注释 域 组 成 。 目 标 操作 数 是 最 后 一 个 操作 数 。 取 和 
存 指令 中 的 地 址 书写 为 中 括 弧 内 的 一 个 寄存 器 与 另 一 个 寄存 器 或 一 个 位 移 之 和 。 寄 存 器 操作 数 
可 以 是 表 A-1 所 示 的 形式 。 寄 存 器 r0 (等 同 于 g0) 是 特殊 的 : 当 它 作为 操作 数 时 产生 值 0"， 并 
忽略 写 给 它 的 结果 。 操 作 符 shi () 和 %1o() 分 别 抽取 其 操作 数 的 高 22 位 和 低 10 位 。 


名 T 


Sri 
$gi 
Sii 
Sli 
Soi 
Sfi 
$sp 
sip 


表 A-1 SPARC 寄 存 器 操作 数 形式 
$& X 

整数 寄存 器 0 <i<3l 
全 局 整数 寄存 器 i, 0 <i< 7 
Int RAG Bi, 0 <i< 7 
局 部 整数 寄存 器 i,，0 < i<7 
Out 整 数 寄 存 器 i, 0 <i<7 
浮 点 寄存 器 i,，0 <i< 31 
栈 指针 ($06) 
帧 指针 (ie) 


例子 中 用 到 的 操作 码 列 出 在 表 A-2 中 。 其 中 有 些 操 作 码 是 机 器 指令 集 的 扩充 一 例如 ，1d 
可 以 产生 一 条 整数 取 指 令 或 者 一 条 学 点 取 指令 ， 取 决 于 其 操作 数 的 类 型 。 完 成 符 a( 它 的 值 可 
UE “a” RER) 作废 分 支 延迟 槽 。 在 操作 数 表 的 开头 带 有 “i, ”或 “x, ”的 分 支 指令 分 
别 根据 32 位 和 64 位 条 件 码 进 行 分 支 。 


表 A-2 正文 中 用 到 的 SPARC 操 作 码 


操作 


加 

总 是 分 支 

大 于 分 支 

大 于 或 等 于 分 支 
小 于 分 支 

小 于 或 等 于 分 支 
不 等 于 分 支 
调用 

比较 

双 精 度 浮 点 加 


单 精 度 浮 点 加 
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(5X) 

名 F 操 作 

fdivs 单 精度 浮 点 除 

fdtoi 转换 双 精 度 到 整数 

fitod 转换 整数 到 双 精 度 
_ £muld 双 精 度 浮 点 乘 

fsubs . 单 精 度 浮 点 减 

iprefetch 指令 预 取 ([XSPARC - V9) 

1d RE 

ida 取 双 字 

ldf 取 浮 点 字 

1dh 取 半 字 

mov 传送 

move | 相等 条 件 传送 
nop 空 操作 

or 或 . 

restore 恢复 寄存 器 窗口 
ret - 返回 

save 保护 寄存 器 窗口 

sethi 设置 高 22 位 

s11 逻辑 左 移 

smul 有 符号 乘 

st 存 字 

std 存 双 字 

stf 存 浮 点 字 

sub 减 

subcc 减 并 设置 条 件 码 
umul ENSK 

unimp 未 实现 的 








SPARC 的 伪 操作 以 点 打头 。 例 子 中 用 到 的 伪 操 作 给 出 在 表 A-3 中 。 | 
尽管 SPARC-V9 用 许多 向 上 兼容 的 方式 扩充 了 V8， 在 多 数 情况 下 这 与 我 们 的 例子 没有 关系 。 


3A-3 SPARC 的 伪 操 作 








名 GE & x 
align ` 设置 对 齐 ( 按 字 节 ) 
.data 切换 到 数据 段 
.double 双 字 常数 
.end ARRAJAR 
.global 全 局 符号 
.Seg 段 切换 
.template 内 从 模板 开始 
.text 切换 到 正文 段 
.word 字 常 数 





A.2 IBM POWER 和 PowerPC 汇 编 语言 
在 POWER 和 PowerPC 汇 编 语言 中 ， 一 条 指令 由 一 个 以 冒号 结束 的 可 选 标号 域 、 一 个 操作 
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码 、 以 逗号 分 隔 的 一 组 操作 数 ， 以 及 一 个 以 美元 符 开 始 的 可 选 注释 域 组 成 。 目 标 操作 数 是 第 一 
个 操作 数 。 在 取 和 存 指令 中 的 地 址 书写 为 一 个 位 移 后 随 一 个 括 弦 内 的 基 寄 存 器 ,或 者 一 个 变 址 
寄存 器 后 随 一 个 用 逗号 分 隔 的 基 寄 存 器 。 通 用 寄存 器 操作 数 是 范围 在 0 到 31 之 间 的 一 个 数字 ， 
或 者 字母 r 后 随 这 样 一 个 数字 ; 每 一 个 寄存 器 的 类 型 由 操作 码 区 别 。 寄 存 器 r0 是 特殊 的 :在 地 
址 计算 中 ， 当 它 作为 地 址 计算 的 操作 数 时 产生 值 0?。 形 如 CRn 的 操作 数 ， 其 中 0<m<7， 表 示 一 
个 条 件 寄存 器 ; CR0 可 以 由 其 操作 码 用 一 个 点 结束 的 任何 整数 指令 设置 。 比 较 指 令 可 以 设置 任 
何 条 件 寄 存 器 ， 分 支 指令 可 以 对 条 件 寄 存 器 中 的 任意 一 个 进行 测试 。 

寄存 器 SP 和 RTOC 分 别 是 栈 指针 和 指向 全 局 对 象 表 的 指针 。 

例子 中 用 到 的 操作 码 列 出 在 表 A-4 中 。PowerPC 中 已 删除 了 POWER 的 零 或 差 指令 (doz)。 


表 A-4 正文 中 用 到 的 POWER 和 PowerPC 的 操作 码 


POWER 名 字 PowerPC 名 字 操作 
a addc jn 
ai addic 加 直接 数 
b b 无 条 件 转移 
bbt bbt 条 件 寄 存 器 位 为 真 分 支 
bc bc 条 件 分 支 
bcr bcr 条 件 寄存 器 分 支 
bl bl 分 支 并 连接 
cal addi 计算 地 址 低 部 
cmp cmp 比较 
cmpi empi 比较 直接 数 
cror cror 条 件 寄存 器 或 
doz --- ERE 
fa fadd 浮 点 加 
1 lwz 取 
lbz lbz 取 字 节 和 0 
lhau lhau 更 新 地 址 取 半 字 并 代数 扩展 
lu lwzu 更 新 地 址 取 
mf spr mfspr 从 特殊 寄存 器 传送 
mtspr mtspr 传送 至 特殊 寄存 器 
muls mullw SG FE 
rlinm rlwinm 循环 左 移 直接 数 并 屏蔽 
st stw 存 
stu stwu 更 新 地 址 存 





A.3 DEC Alpha 汇 编 语言 


在 DEC Alpha 汇 编 语 言 中 ， 一 条 指令 由 一 个 以 冒号 结束 的 可 选 标号 域 、 一 个 操作 码 、 以 
逗号 分 隔 的 一 组 操作 数 ， 以 及 一 个 以 分 号 开始 的 可 选 注释 域 组 成 。 目 标 操 作 数 是 最 后 一 个 操 
作 数 。 在 取 和 存 指令 中 的 地 址 书写 为 一 个 位 移 后 随 一 个 括 弧 内 的 基 寄 存 器 。 整 数 寄 存 器 操作 
数 可 以 是 表 A-5 所 示 的 形式 。 寄存 器 r31 是 特殊 的 : ii 它 作为 操作 数 时 产生 值 0， 并 忽略 写 给 
它 的 结果 。 

例子 中 用 到 的 操作 码 列 出 在 表 A-6 中 。 其 中 有 些 操作 四 是 机 器 指令 集 的 扩充 一例 如 ， 
clr 和 mov 两 者 都 可 以 做 逻辑 或 操作 。 
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记 住 ， DEC 的 “长 字 ” 和 “4 字 ” 分 别 是 我 们 的 “ 字 ” 和 “ 双 字 ”。 
RAS Aipha ERE 





名 F A X 
ri 整数 寄存 器 |，0 <i< 31 
sp 栈 指 针 (r30) 
gp 全 局 指针 (x29) 





RA-6 正文 中 用 到 的 Alpha 操 作 码 








名 F E f 
addi 长 字 加 
addq 4 字 加 
beq 寄存 器 等 于 0 分 支 
bis 逻辑 或 
ble 寄存 器 小 于 或 等 了 0 分 支 
blt 寄存 器 大 于 或 等 十 0 分 支 
bne 寄存 器 不 等 于 0 分 支 
clr 清 寄存 器 
cmple 有 符号 的 长 字 小 于 或 等 于 比较 
cmplt 有 符号 的 长 字 小 于 比较 
cvttq 转换 IEEE 浮 点 到 整数 
insbl 插入 宁 节 低 部 
jsr 转移 到 子 程序 
lda 取 一 个 地 址 
ldah 取 地 址 高 部 
191 RET 
lag 取 4 字 
lida. u 到 未 对 齐 的 4 字 
mov 寄存 器 传送 
mskbl 屏蔽 字 节 低 部 
muli 长 字 乘 
nop 空 操作 
ret 从 子 程序 返回 
s4subq 用 4 放大 4 字 然 后 减 
sll 逻辑 左 移 
stl 存 长 字 
stq 存 4 字 
stq u 存 未 对 齐 的 4 字 
subq 4 字 减 





A.4 Intel 386 体 系 结构 汇编 语言 


在 Intel 386 体 系 结构 系列 的 汇编 语言 中 ， 一 条 指令 由 一 个 以 冒号 结束 的 可 选 标号 域 、 一 个 
操作 码 、 以 逗号 分 隔 的 一 组 操作 数 ， 以 及 一 个 以 分 号 开始 的 可 选 注释 域 组 成 。 指 令 可 以 有 0~2 
个 操作 数 ， 取 决 于 操作 码 和 用 法 (例如 ， 返 回 指令 ret 可 以 有 一 个 操作 数 ， 但 它 是 可 选 的 )。 
对 于 两 操作 数 指 令 ， 第 二 个 操作 数 通常 既是 第 二 操作 数 ， 也 是 目标 操作 数 。 
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FF fd SEXES S A— Mies ab — MAM ARR; 表 由 一 个 基 寄 存 器 后 随 一 个 变 址 寄存 器 以 
及 一 个 缩放 因子 【 它 取决 于 变 址 寄存 器 ) 组 成 ， 其 中 每 一 项 都 是 可 选 的 ， 但 如 果 没 有 出 现 变 址 寄 
存 器 ， 就 不 能 有 缩放 因子 。 整 数 寄 存 器 操作 数 是 一 个 百 分 号 后 随 寄 存 器 名 。 常 数 以 美元 符号 开头 。 
整数 寄存 器 名 给 出 在 表 A-7 中 。 为 了 与 较 旱 的 Intel 处 理 器 兼容 ， 某 些 32 位 寄存 器 有 16 位 的 
子 寄存 器 ， 而 且 还 有 8 位 的 子 寄存 器 。 虽 然 这 些 寄存 器 中 有 6 个 是 通用 的 ,但 在 某 些 情况 下 ， 其 
中 有 一 些 按 指定 的 方式 由 特定 的 指令 来 使 用 ， 例 如 用 于 字符 串 操 作 的 ecx、esi 和 edi。 


表 A-7 Intel 386 体 系 结构 整数 寄存 器 名 


32 位 的 16 位 的 8 位 的 

名 宁 名 字 名 字 用 d 

eax ax al,ah 通用 寄存 器 

ebx bx bl,bh 通用 寄存 器 

ecx cx cl,ch 通用 寄存 器 

edx dx dl,dh 通用 寄存 器 

ebp bp 基 (或 帧 ) 指针 

esi si 通用 寄存 器 

edi di 通用 寄存 器 751 
esp sp 栈 指针 12 


浮 点 寄存 器 的 长 度 是 80 位 并 形成 了 一 个 栈 。 它 们 的 名 字 从 sst (0) (或 仅 为 sst) 
到 %st (7)。 典 型 的 指令 (如 加 ) 可 有 如 下 形式 : 

fadd $st(2), st 

fadd 1.0 
其 中 的 第 一 条 指令 相 加 %st 和 %st (2) 的 内 容 ， 并 将 结果 放置 在 $st 中 ， 第 二 条 指令 将 1.0 加 到 %st 中 。 

例子 中 用 到 的 操作 码 列 出 在 表 A-8 中 。 所 有 整数 指令 中 的 后 级 “1” 指 出 它们 操作 的 是 长 
(32 位 ) 操作 数 。 


. 表 A-8 ”正文 中 用 到 的 Intel 386 体 系 结构 操作 码 


& F BOE 
addl 加 

andi 逻辑 与 
call 调用 
cmpl 比较 
fadd 浮 点 加 
imull 35 

incl 增加 

jg 大 于 转移 
jle 小 于 或 等 于 转移 
jne 不 等 于 转移 
leal 取 有 效 地 址 
movi 传送 
popl iB 
pushl Etk 
ret 返回 
shll CHEB 


减 
xorl 逻辑 异 或 
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A.5 Hewlett-Packard PA-RISC 汇 编 语 言 


在 PA-RISC 汇 编 语 言 中 ， 一 条 指令 由 一 个 可 选 标号 域 、 一 个 操作 码 、 以 逗号 分 隔 的 一 组 操 
作 数 ， 以 及 一 个 可 选 注释 域 组 成 。 目 标 操作 数 是 最 后 一 个 操作 数 。 在 取 和 存 指令 中 的 地 址 书写 
为 一 个 位 移 或 一 个 变 址 寄存 器 后 随 一 个 括 在 括 弧 内 的 基 寄 存 器 。 寄 存 器 操作 数 可 以 是 表 A-9 所 
示 的 形式 。 操 作 符 LR ' 和 RR' 分 别 抽取 它们 的 操作 数 或 常数 的 高 16 位 和 低 16 位 。 


表 A-9 ”PA-RISC 寄存 器 名 


名 T & xXx 
Sri SERES, O <i< 31 
gfri 浮 点 寄存 器 i,，0 <i< 31 
&friL 浮 点 寄存 器 i，0 <i< 31， 左 半 部 
&friR 浮 点 寄存 器 i,，0 <i< 31, HER 


例子 中 用 到 的 操作 码 列 出 在 表 A-10 中 。 其 中 有 些 操作 码 是 机 器 指令 集 的 扩充 一 一 例如 ， 
COPY 实 际 上 是 OR 的 一 种 子 情形 ，COMB 是 COMBF 和 COMBT (分 别 是 比较 结果 为 假 分 支 和 比较 
结果 为 真 分 支 ) 的 简写 。 完 成 符 mod 指 出 修改 取 或 存 指令 中 的 基 寄 存 器 ; 具体 地 ，MA 在 形成 有 
效 地 址 之 后 通过 给 它 加 上 一 个 位 移 来 修改 基 寄 存 器 。 完 成 符 cond 指 出 一 个 算术 (或 其 他 ) 条 件 
(例如 ，sDc 指 出 “ 某 个 数字 进位 ”)， 完 成 符 n (其 值 可 以 是 N) 指出 作废 分 支 之 后 的 指令 。 


表 A-10” ”PA-RISC 操作 码 


名 F 操作 
ADD 加 
ADPB 加 然后 分 支 
ADDBT 加 然后 为 真 则 分 支 
ADDI 加 直接 数 
ADDIB, cond 加 直接 数 然 后 条 件 分 支 
ADDIL 加 直接 数 左 部 
B 2X 
BL 分 支 与 连接 
BV 引导 分 支 
COMB cond, n 比较 然后 分 支 
COMBF , cond 比较 为 假 则 分 支 
COMCLR 比较 并 清除 
COMIBF, cond,n 比较 直接 数 然后 为 假 则 分 支 
COPY 复制 
DCOR 十 进 制 修正 
FLDWS ,mod 短 位 移 取 浮 点 字 
FSTWS, mod 短 位 移 存 浮 点 字 
LDHS, mod 短 位 移 取 半 字 
LDI 取 直 接 数 
LDO Bf e 
LDWM, mod 取 字 并 更 新 地 址 
LDWS, mod 短 位 移 取 字 
LDWX,mod 变 址 取 字 
MOVE 传送 寄存 器 


NOP 


. 空 操作 
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( 续 ) 

名 c 操作 
OR 逻辑 或 
SH1ADD 移 1 位 后 相 加 
SH2ADD 移 2 位 后 相 加 
SH3ADD 移 3 位 后 相 加 
SHD 双 字 移 位 
STW 存 字 
STWM, mod 存 字 并 更 新 地 址 
SUB 减 754 


XMPYU 无 符号 定点 乘 755 





附录 B 集合 、 友 列 、 树 、DAG 和 函数 的 表示 


选择 抽象 数据 结构 的 一 种 适当 的 具体 表示 ， 可 以 使 得 一 个 算法 的 运行 时 间 从 它 需 要 的 最 大 
多 项 式 或 甚至 指数 时 间 降低 到 线性 的 或 2 次 的 时 间 。 因 此 如 果 我 们 想 要 将 本 书 或 其 他 地 方 介绍 
的 算法 转变 成 有 效 运行 的 代码 ， 就 必须 理解 数据 结构 可 能 的 表示 、 对 它们 的 各 种 操作 所 需要 的 
时 间 以 及 它们 所 占用 的 空间 。 

这 个 附录 的 目的 不 是 提供 数据 结构 的 课程 ， 而 主要 是 为 了 使 读者 在 实现 如 本 书 给 出 的 有 关 
算法 时 ， 应 当 考 虚 到 和 回忆 起 的 一 些 有 用 的 数据 结构 的 具体 表示 。 

例如 ， 假 设 我 们 需要 表示 一 个 范围 在 0 至 zx- 1 之 间 ， 且 至 多 有 s 个 成 员 的 严格 递增 的 整数 序 
列 ， 则 对 于 x = 64， 

1, 3, 5, 11, 23, 43, 53, 62 
是 这 种 序列 ， 而 

3, 1, 15 


不 是 ， 因 为 在 第 二 个 序列 中 ， 第 一 个 成 员 大 于 第 二 个 。 我 们 可 以 用 一 个 双向 链表 来 表示 这 种 序 
列 ， 其 中 的 表 项 包含 整数 ， 也 可 以 用 一 个 双 字 的 位 向 量 来 表示 它 ， 其 中 位 置 浊 1 当 且 仅 当 ;属于 
该 序列 ， 如 图 B-1a 所 示 。 令 s 是 该 序列 当前 具有 的 全 部 元 素 的 个 数 。 假 设 我 们 需要 对 这 个 序列 
执行 的 操作 是 (1) 增 加 一 个 值 ，(2) 删 除 一 个 值 ，(3) 测 试 一 个 值 的 成 员 关系 ，(4) 合 并 两 个 序列 和 
(5) 确 定 序 列 的 长 度 。 


Head 
[++ NI Tail 
N - | 一 < 一 上 上 | 
a) 


0x00000000 | 0x00004044 


E b) 
图 B-1 由 3, 7, 15 三 个 成 员 组 成 的 严格 递增 序列 的 表示 : a) 双 向 链表 ，b) 双 字 位 向 量 ( 位 从 右 数 起 ) 


对 于 链表 实现 方式 ， 我 们 如 下 执行 这 些 操作 中 的 每 一 个 : 

1. 增加 一 个 值 v:， 遍历 此 表 与 v 做 比较 ， 直 到 (a) 找 到 v，(b) 找 到 一 个 比 v 大 的 值 ， 或 者 (c) 到 
达 链 尾 。 对 于 情形 (b) 和 (c)， 我 们 插入 v 到 适当 的 位 置 ， 对 于 情形 (a)， 我 们 不 需 做 什么 。 

2. 删除 一 个 值 ， 遍 历 此 表 与 v 做 比较 ， 直 到 (a) 找 到 v，(b) 找 到 一 个 比 v 大 的 值 ， 或 者 (c) 到 达 
链 尾 。 对 于 情形 (a)， 我 们 删除 包含 v 的 表 项 ， 对 于 情形 (b) 和 (c)， 不 需 做 什么 。 

. 3. 测试 v 的 成 员 关 系 : 遍历 此 表 与 v 做 比较 ， 直 到 (a) 找 到 一 个 vr，(b) 找 到 一 个 比 大 的 值 ， 或 
者 (c) 到 达 链 尾 。 对 于 情形 (a)， 我 们 回答 “是 ”， 对 于 情形 (b) 和 (c)， 我 们 回答 “不 是 ”。 

4. 合并 两 个 序列 : 并 行 遍历 两 个 链表 ， 根 据 元 素 的 相对 大 小 从 每 一 个 链表 中 选择 元 素 并 合 





550 | REB 





并 它们 到 一 个 表 中 ， 在 处 理 中 删除 重复 的 元 素 。 

5. 确定 序列 的 长 度 : 遍历 此 链表 ， 对 成 员 计 数 。 

其 中 每 一 种 操作 需要 的 时 间 在 最 坏 的 情况 下 为 O(n)， 在 典型 的 情形 下 为 O(s)， 并 且 该 序列 
需要 3 x s 个 字 的 存储 空间 。 

对 于 位 向 量 的 实现 ， 我 们 首先 构造 一 个 由 w= 64 个 双 字 组 成 的 数组 mask[1. .64] ， 它 的 
每 一 个 元 素 有 一 位 被 设置 为 1， 即 第 ;个 双 字 中 的 第 ;位 为 1。 称 此 序列 的 当前 值 为 seq。 

我 们 执行 这 些 操作 如 下 : 

1. 增加 一 个 值 mask[v] 与 seqg 求 逻辑 或 。 

2. 删除 一 个 值 mask [v] 取 反 码 的 结果 与 seq 求 逻辑 与 。 

3. 测试 成 员 关 系 : mask [vj 与 seq 求 逻辑 与 。 如 果 结 果 非 90， 回答 “是 ”， 否 则 回答 “不 是 ”。 

758 4. 合并 两 个 序列 : 这 两 个 序列 求 逻 辑 或 。 

5. 确定 序列 的 长 度 : 从 "=1 到 &，mask [v] 与 sed 求 逻辑 与 ， 并 且 计 数 结果 中 为 1 的 位 的 个 
数 。 

现在 ， 除 了 (5) 之 外 的 每 一 种 操作 都 具有 常数 执行 时 间 ， 确 定 长 度 需 要 的 时 间 为 O(u)， 并 且 
每 一 个 位 向 量 占 两 字 。 

因此 ， 已 知 要 执行 上 面 的 一 组 操作 ， 我 们 会 愿意 选择 位 向 量 表示 ， 除 非 确定 序列 的 长 度 是 
执行 频率 非常 高 的 操作 。 另 外 注意 到 通过 让 其 他 操作 分 担 确定 序列 长 度 的 一 部 分 代价 ， 可 以 使 
它 的 速度 得 到 显著 的 提高 ， 即 我 们 可 以 保持 一 个 序列 长 庆 计 数 器 ， 并 且 每 当 加 入 或 删除 一 个 元 
素 时 便 对 它 进行 修改 。 对 于 位 向 量 表示 ， 当 我 们 合并 两 个 序列 时 ， 仍 然 需要 计数 它 的 成 员 。 

男 一 方面 ， 假 设 序列 允许 的 范围 是 4&= 1 000 000， 但 是 它 实际 出 现 的 序列 决 不 会 多 于 = 50 
个 元 素 。 现 在 ， 经 过 权衡 后 我 们 趋向 于 选择 双向 链表 实现 :每 一 种 链表 操作 至 多 花费 我 们 50 个 
运算 ， 并 且 链 表 的 每 一 个 元 素 至 多 占用 150 个 字 ; 尽管 每 一 种 向 量 操作 所 花 的 时 间 是 O(n), 但 
每 一 个 向 量 占 了 [1 000 000/32 |=31 250 个 字 。 

注意 两 种 实现 都 可 以 采用 动态 分 配 和 释放 方法 ， 以 应 付 数据 结构 大 小 的 变化 ， 只 要 它们 是 
通过 指针 来 访问 的 。 


B.1 集合 的 表示 


同 大 多 数 数据 结构 的 情形 一 样 ， 我 们 如 何 选择 集合 的 表示 取决 于 元 素 的 特征 、 构 成 集合 全 
集 的 势 、 集 合 的 典型 规模 和 最 大 规模 ， 以 及 要 对 它们 执行 的 运算 。 

如 果 全 集 U 的 值 域 是 4 个 整数 ， 且 对 于 某 个 u 较 可 取 的 值 是 0, …, u 一 1， 则 可 以 有 几 种 比 其 
他 表示 更 简单 的 表示 。 如 果 不 是 这 种 形式 ， 则 常常 有 帮助 的 是 通过 散 列 将 U 的 元 素 映射 到 值 域 
0, =, u-l. 

是 否 需要 散 列 函 数 是 易于 逆转 的 ， 取 决 于 对 集合 要 执行 的 运算 。 例 如 ， 如 果 我 们 想 要 合并 
两 个 集合 ， 然 后 枚 举 这 个 并 集中 的 成 员 ， 可 逆 的 散 列 函 数 就 是 必须 的 。 如 果 不 需 要 我 们 枚 举 集 
合成 员 的 运算 ， 就 不 需要 可 逆 性 。 

集合 上 的 基本 运算 是 并 (“U”)、 交 (“Nn”)、 差 (“一 ”)、 相 等 (“ =”)、 子 集 (“ 

和 从 属 关 系 (“《 ”)。 某 些 情况 下 也 可 能 需要 集合 的 积 (“ x ”) 和 其 他 运算 。 

位 向 量 是 一 种 最 容易 执行 这 些 基本 运算 的 集合 表示 ， 尤 其 是 当 U= (0, …, u 一 1}， 且 uw 相对 

较 小 时 。 大 部 分 数据 流 分 析 都 使 用 位 向 量 表 示 ， 因 为 对 应 的 运算 较 快 而 且 其 表示 也 较 紧凑 。 对 
于 一 个 有 u 个 元 素 的 U， 要 求 每 一 个 集合 占 『w/32 | 个 字 ， 其 基本 运算 的 执行 如 下 : 
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集合 操作 位 向 量 操作 
c:=aUb bu(c) := bv(a) or bv(b) 
c:=anb bu(c) := bv(a) and bv(b) 
c:za—b bv(c) := bv(a) and !bv(b) 

t: a-b t := (bv(a) xor bu(b)) + Ô 
t:=ach t := (!bv(a) and bv(b)) + Ô 
t:=aeb t := (mask[a] and bu(b)) #0 


其 中 bv(x) 是 x 的 位 向 量 表 示 ; 0 是 全 为 0 的 位 向 量 ; or( 或 )、and( 与 )、xor( 异 或 ) 和 “! ” (GE 
按 位 逻辑 运算 ; mask [] 是 一 个 位 串 ， 其 中 mask [让 的 第 i 位 是 1， 其 余 所 有 的 位 是 0。 因 此 ， 典 
型 运算 的 执行 时 间 都 可 以 在 O(w) 内 ， 与 集合 本 身 的 元 素 个 数 无 关 。 

链表 是 表示 全 集 的 较 小 子 集合 S( 大 小 为 s) 的 一 种 最 容易 的 表示 。 一 个 典型 的 双向 链表 如 图 
B-1a 所 示 。5 的 这 种 表示 的 大 小 是 O(s)， 而 不 像 位 向 量 那样 是 O(nu)， 但 执行 基本 运算 比 位 向 量 
要 困难 一 些 。 例 如 ， 图 B-2 给 出 的 计算 4 和 8B 的 并 集 的 代码 中 ，first ()、next () 和 last O 
遍历 链表 ，append() 将 它 的 第 二 个 参数 加 到 它 的 第 一 个 参数 的 末尾 ， 它 们 需要 的 时 间 是 
O(ab), 或 0(s*))， 其 中 a 和 b 分 别 是 4 和 B 的 势 。 当 然 ， 在 最 坏 的 情况 下 这 个 时 间 是 O(w)， 但 我 们 
假定 大 多 数 情况 下 集合 4 和 B 的 元 素 个 数 都 大 大 少 于 uw。 为 了 执行 其 他 运算 还 需要 其 他 一 些 类 似 
的 例 程 ， 这 些 例 程 除 了 测试 从 属 关系 的 时 间 是 0(s) 之 外 ， 它 们 都 具有 类 似 的 时 间 上 界 。 760 


procedure Set Union(A,B) returns set of U 
A, B: set of U 
begin 
S := A: set of U 
x, y: U 
for x :- first(B) to last(B) do 
for y := first(A) to last(A) do 
if x = y then 
'" goto Li 
fi 
y := next (A) 
x := next(B) 
od 
S := append(S,x) 
L1: od 
return S 
end {| Set. Union 


















图 B-2 计算 用 链表 表示 的 两 个 集合 的 并 集 的 ICAN 代 码 


对 于 那 种 元 素 之 间 具 有 易于 计算 的 全 序 (或 需要 保持 有 序 ) 的 集合 而 言 ， 例 如 符号 表 中 的 
标识 符 集合 ,平衡 二 叉 树 是 它们 的 一 种 重要 表示 。 在 这 种 树 中 ， 每 一 个 结 点 的 值 大 于 它 的 左 子 
树 中 每 一 个 结 点 的 值 ， 且 小 于 它 的 右 子 树 中 每 一 个 结 点 的 值 ， 并 且 ， 从 根 到 一 个 叶子 的 最 长 路 
径 与 最 短路 径 至 多 相差 1。 图 B-3a 给 出 了 一 个 表示 标识 符 集 合 {bone, dog,ear,eye, 
1imb,mouth，nose} 的 平衡 二 又 树 的 例子 。 在 图 b) 中 ， 我 们 加 入 了 一 个 值 day 到 该 集合 ,使 
得 该 树 变 得 不 平衡 。 图 c) 展示 了 使 它 重新 平衡 后 的 结果 。 注 意 ， 由 平衡 树 表示 的 集合 5 的 从 属 
关系 的 测试 时 间 可 在 O(log s) 内 。 计 算 并 、 交 、 差 、 相 等 和 子 集 需 要 的 时 间 是 O(s log 5). 

散 列 是 另 一 种 重要 的 集合 表示 。 如 通常 阐述 的 ， 它 需要 计算 一 个 函数 hash () ， 此 函数 将 
BAS c U0 的 元 素 映射 到 某 个 适当 的 范围 0, …, uw 一 1 内 。 然 后 在 数组 Hash (0. .4 一 1] 的 一 个 登 
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记 项 hash(a) 中 找 出 指向 登记 项 链表 (通常 叫做 “ 散 列 桶 ”(buckets)) 的 指针 ， 链 表 中 的 每 一 个 
登记 项 对 应 于 已 散 列 到 hash(a) 的 S 的 元 素 4a。 集 合 运算 的 效率 在 很 大 程度 上 取决 于 所 选择 的 散 列 
函数 。 假 定 被 散 列 到 每 一 个 登记 项 的 元 素 不 会 多 于 2w/n 个 元 素 ， 则 当 每 一 个 散 列 链 是 有 序 的 时 ， 
测试 从 属 关 系 需要 的 时 间 为 O(u/n); 并 、 交 、 相 等 和 子 集 需 要 的 时 间 为 O(n)。 





图 B-3 a) 标识 符 的 平衡 二 又 树 ; b) 加 入 day 导致 树 变 得 不 平衡 ; 
以 及 c) 使 此 树 重新 平衡 后 的 结果 

Briggs 和 Torczon [BriT931 开 发 了 一 种 新 的 稀疏 集合 表示 , 这 种 表示 的 基本 运算 时 间 是 常数 。 
它 用 两 个 含 u 个 元 素 的 数组 s[ ] 和 d[ ] 以 及 一 个 标量 c 表 示 稀 醇 集合 5 CU = (01, …, u}。c 的 值 是 5 
的 势 。 数 组 d[ ] 按 任意 顺序 存放 5 的 c 个 元 素 于 位 置 1, … c， 并 设置 s[ ] 的 元 素 使 得 

1 < s[i] < cHBdfs {j=i， 当 且 仅 当 i€ S 
Bp, sl ] 的 第 i 个 元 素 给 出 ;在 数组 df ] 中 的 位 置 。s[ Ald ] 中 其 他 项 的 值 不 重要 。 例 如 ， 图 B-4 说 
明了 集合 {2, 5, 7, 4} 在 u=8 时 是 如 何 表 示 的 。 基 本 运算 是 增加 和 删除 一 个 元 素 ， 测 试 从 属 关系 ， 
以 及 确定 集合 的 大 小 。 我 们 执行 这 些 运算 如 下 : 

1. 增加 一 个 元 素 v: 检查 是 否 有 1< sfv] < c 且 d[stv]]=v。 如 果 不 是 ， 设 置 c 为 c+1，d[c] 为 v， 
和 s[v] 为 c。 | 

2. 删除 一 个 元 素 v: 检查 是 否 有 1< stv] < c 且 dlstv]] =v。 如 果 是 ， 设 置 d[stv]] 为 dfc]，c 为 
c-1, füls[v]: —0. 
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3. 测试 "的 从 属 关系 : 检查 是 否 有 1 < s[v] < c 且 d[s[v]]==v。 如 果 是 ， 回 答 “yes”， 否 则 回答 
no 。 

4. 确定 大 小 : 返回 c。 

表示 特定 问题 的 稀疏 集合 有 两 种 有 用 的 混合 表示 方法 。 链 接 段 表 结 合 了 数组 的 快速 遍历 与 
链表 的 动态 分 配 。 例 如 ， 图 B-5 展 示 了 集合 {5, 2, 11, 23, 94, 17} 的 链接 段 表 表示 。 位 向 量 链 表 与 
之 类 似 , 不 同 的 只 是 表 元 素 中 存储 的 值 是 位 向 量 。 它 们 有 助 于 这 种 位 向 量 问题 ,在 这 种 问题 中 ， 
大 部 分 的 位 在 整个 分 析 过 程 中 都 是 常数 。 


c=4 


dli] 


si 


|_| 
3 | 


Tail 


4 


图 B-4 wu=8 时 集合 {2, 5, 7,4)} 的 稀疏 表示 图 B-5 用 双向 链接 段 表 表示 的 集合 {5, 2, 11, 23, 94, 17} 
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B2 序列 的 表示 


序列 几乎 同 集合 一 样 重要 ， 并 且 事 实 上 许多 表示 都 是 从 集合 延伸 到 序列 的 ， 不 同 的 只 
是 我 们 按 预 先 定义 的 顺序 保持 序列 的 成 员 。 

序列 的 一 些 重要 运算 是 本 附录 开始 时 列 出 的 那些 运算 ， 即 增加 一 个 值 ， 删 除 一 个 值 ， 测 试 
从 属 关 系 ， 合 并 两 个 序列 ， 以 及 确定 序列 的 长 度 。 序 列 的 连接 也 是 重要 的 。 . 

链表 和 链接 段 表 是 序列 的 常用 表示 ， 它 允许 运算 在 时 间 C) 内 执行 ， 其 中 "是 序列 的 长 度 〈 注 
意 ， 这 也 包括 链接 的 时 间 ， 因 为 我 们 所 要 做 的 只 是 接合 第 一 个 序列 的 尾部 与 第 二 个 序列 的 开始 )。 

另 一 方面 ， 位 向 量 对 序列 表示 一 般 没 有 什么 帮助 ， 因 为 它们 对 元 素 强 制 有 一 种 通常 并 不 项 
望 的 顺序 。 

平衡 二 叉 树 是 相当 有 用 的 ， 因 为 它们 人 允许 对 其 登记 项 强加 任意 选择 的 顺序 〈 我 们 只 需要 使 
每 一 个 元 素 在 位 置 上 按 那 个 顺序 毗连 ， 并 在 重新 平衡 的 树 中 使 用 它 )， 并 且 也 因为 对 它们 的 运 
算 较 快 。 


B.3 树 和 DAG 表 示 


树 在 编译 过 程 中 有 若干 重要 的 用 途 ， 如 语法 分 析 、 代 码 生 成 和 表达 式 优 化 。 在 多 数 情况 下 ， 
树 是 二 又 树 一 一 尤其 是 在 代码 生成 和 优化 中 一 一 因此 ， 我 们 关注 的 是 二 叉 树 。 

常用 的 二 叉 树 表示 有 两 种 ， 链 的 和 线性 的 。 链 形式 中 的 结 点 一 般 至 少 含有 4 个 域 ， 父 亲 、 
左 儿子 、 右 儿子 和 值 ， 如 图 B-6 所 示 。 每 一 个 结 点 也 可 能 还 有 用 来 表示 其 他 值 的 另外 的 域 。 

树 的 线性 表示 依赖 于 这 一 事实 : 二 叉 树 总 是 可 以 用 它 的 根 ， 其 后 跟随 它 的 子 树 来 表示 ， 即 
用 前 绎 波兰 表示 来 表示 。 在 这 种 形式 中 ， 图 B-6 中 链 的 表示 变 成 了 -+2x3。 这 种 类 型 的 表示 在 某 
些 编译 器 中 被 用 作为 中 间 代 码 ， 并 且 也 是 Graham-Glanville 风 格 的 代码 生成 (参见 6.2 节 ) 的 基础 。 
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a) b) 
图 B-6 a) 二 又 树 的 链 形式 表示 ， 即 表示 (2+x) - 3 的 表达 式 树 ; b) 它 的 各 个 域 的 含义 


DAG 有 助 于 基本 块 的 优化 、 代 码 生 成 以 及 代码 调度 (参见 17.1.2)， 它 几乎 总 是 用 链 结构 
来 表示 的 。 


B.4 函数 的 表示 


在 编译 器 中 ， 函 数 用 于 表示 各 种 映射 ， 例 如 映射 基本 块 和 流 图 的 边 到 它们 的 执行 频率 ， 以 
及 表示 别名 ， 等 等 | 

最 具 效率 的 函数 表示 要 求 函 数 有 一 个 由 某 种 简单 类 型 组 成 的 定义 域 和 一 个 简单 类 型 的 结 
果 ， 并 且 从 定义 域 的 元 素 计算 这 个 函数 较 容易 ， 例 如 f (x, y, z) = x+2*y-z。 当 然 ， 这 种 函数 
一 般 是 用 代码 来 表示 的 。 | 

效率 位 于 其 次 的 函数 表示 需要 用 到 一 个 数组 。 为 了 使 得 这 种 方法 可 用 ， 定 义 域 的 组 成 必须 
是 某 个 范围 的 整数 、 或 者 易于 映射 到 某 个 整数 范围 ， 而 且 函 数值 必须 是 一 致 的 、 或 可 以 通过 存 
储 在 数组 元 素 中 的 指针 而 得 到 。 

散 列 方法 为 那 种 不 易于 映射 到 数组 的 函数 提供 了 一 种 有 吸引 力 的 可 选 表 示 方法 。 在 这 种 广 
法 中 ， 定 义 域 元 素 首 先 被 散 列 到 一 个 确定 的 散 列 链表 中 ， 然 后 通过 查找 此 表 来 寻找 与 参数 匹配 
的 存放 对 应 函数 值 的 登记 项 。 对 函数 执行 得 最 频繁 
的 一 种 运算 是 ， 当 给 定 一 组 参数 时 计算 它 的 值 ， 上 
面 讨论 的 三 种 表示 做 到 这 一 点 都 十 分 容易 。 

虽然 不 太 频繁 ， 但 有 时 我 们 也 可 能 会 需要 复合 ° C) 

两 个 函数 ， 或 通过 改变 函数 的 定义 域 或 一 个 值 ， 或 LN AN 
同时 改变 两 者 的 方式 来 修改 一 个 函数 。 Feta hai tee 

另 一 种 函数 表示 是 那 种 设计 成 通过 程序 来 构造 ， | 
然后 重复 使 用 这 个 程序 来 计算 其 值 的 表示 ， 例 如 像 
在 基于 控制 树 的 数据 流 分 析 中 (参见 8.6 节 ) 所 表示 ^ 
的 一 样 。 在 这 种 情形 中 ， 我 们 需要 构造 一 个 较 后 能 AN\\\ 
够 被 解释 执行 的 数据 结构 ， 如 8.7.3 节 所 讨论 的 图 。 i Pas 
图 B-7 是 这 类 图 的 一 个 例子 。 其 中 ， 根 是 要 计算 的 函 图 B-7 结构 化 数据 流 方程 式 的 DAG 表 示 
数 的 名 字 ， 其 下 的 每 一 个 子 图 表示 如 何 计算 它 《“*” 
表示 函数 复合 ,，“0” 表 示 函 数 应 用 ,，“ n ”表示 格 的 交 运算 ，ia 表 示 所 标识 的 这 个 函数 )。 这 
样 的 图 不 难 构造 ， 并 且 可 以 随 计算 数据 流 信息 的 需要 来 解释 。 


FB3a in(B4a) 
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B.5 进一步 阅读 


有 关 如 何 保持 二 叉 树 的 平衡 ， 以 及 对 编译 器 的 构造 而 言 有 价值 的 其 他 数据 结构 的 描述 ， 可 
参见 任何 关于 数据 结构 的 优秀 原文 ， 例 如 Knuth 的 [Knut73]。 
[BriT93] 中 描述 了 Briggs 和 Torczon 关 于 稀 政 集合 的 新 表示 。 


~Ê 
CA 





附录 C 软件 资源 


这 个 附录 介绍 可 通过 Internet 或 其 他 发 布 途径 自 由 获取 的 、 用 于 研究 性 编译 器 构造 项 目的 软 
件 。 其 中 大 部 分 软件 包 都 带 有 限制 其 用 于 教育 项 目的 许可 协议 。 在 本 书 出 版 商 的 网 站 上 可 以 访 
问 到 本 附录 的 所 有 部 分 ， 其 中 有 所 有 互联 网 、WWW 的 链接 ， 以 及 本 附录 中 给 出 的 ftp 地 址 。 本 
书 的 网 址 是 http://books.elsevier. com/us//mk/us/subindex.asp? maintarget= companions/ 
defaultindividual.asp&isbn=1558603204。 


C.1 寻找 Internet 上 的 软件 


这 里 列 出 的 资源 只 是 许多 可 能 得 到 的 、 有 助 于 编译 器 相关 项 目的 软件 包 中 的 几 个 。 通 过 某 
个 搜索 引擎 ， 如 Yahoo、Alta Vista、Lycos、Infoseek 等 ， 可 以 在 WWW 上 找到 其 他 的 信息 。 有 
众多 的 参考 书 ( 如 [Krol92] 和 [Keho93]) 提供 了 关于 访问 和 使 用 这 种 搜索 引擎 的 信息 。 


C.2 机 器 模拟 器 


C.2.1 Spim 


威斯康星 大 学 的 James Larus 编 写 了 一 个 MIPS R2000 和 R3000 的 模拟 器 ， 叫 做 SPIM ， 可 获 
得 它 用 于 学 习 项 目 。[HenP94] 的 附录 A 中 详细 地 介绍 了 这 个 模拟 器 。 

SPIM 能 够 读 和 人 并 执行 含 汇编 语言 语句 的 文件 和 MIPS a. out xf. 它 是 一 个 包括 调试 器 和 
操作 系统 接口 的 自 包含 系统 ， 并 且 至 少 可 在 DEC、Sun、IBM 和 HP 等 工作 站 上 运行 。 

SPIM 实 现 了 几乎 整个 MIPS 扩 充 汇编 指令 集 ( 某 些 复杂 的 浮 点 比较 指令 和 页 表 管 理 指令 除 
外 )。 它 包含 完整 的 源 代码 和 所 有 使 用 文档 ， 有 一 个 简单 的 终端 风格 的 界面 ， 也 有 一 个 基于 X 
Windows 的 界面 。 

” 当 本 书 即将 印刷 时 ， SPIM 的 一 个 DOS 版 本 和 一 个 新 的 Windows 版 本 正在 开 gh. Windows 
版 本 将 运行 在 Windows 3.1. Windows 9541 Windows NT 之 上 。 可 在 出 版 商 的 网 站 
http://www.mkp.com/cod2e.htm 查 看 到 关于 这 些 新 版 本 的 信息 。 

为 了 取 回 一 个 包含 SPIM 系 统 和 文档 的 压缩 tar 文 件 ， 可 访问 http://www: cs.wisc. edu/ 
~larus/spim.html 并 遵循 那里 找到 的 使 用 说 明 。 为 了 及 时 得 到 这 个 系统 进一步 的 更 新 信息 ， 可 发 
送 你 的 电子 邮件 到 larus@cs.wisc.edu。 

C.2.2 Spa 


Spa 是 澳大利亚 阿 德 雷 德 大 学 的 Gordon Irlam 编 写 的 一 组 工具 ， 其 中 包含 了 一 个 SPARC 模 拟 
器 。 要 获得 有 关 它 的 更 多 内 容 ， 可 通过 http://www.base.com 访 问 文件 gordoni/spa.html。 


C.3 编译 器 


C.3.1 GNU 
GNU 编 译 器 由 自由 软件 基金 会 的 自愿 者 们 开发 ， 并 且 可 以 自由 发 布 和 修改 。 如 果 满足 某 些 
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条 件 的 话 ， 它 可 以 包含 在 商业 产品 中 。 有 关 信 息 可 与 基金 会 联系 ， 地 址 为 675 Massachusetts 
Avenue, Cambridge, MA 02139, 

为 了 获得 GNU 编 译 器 的 源 人 代码， 建立 一 个 匿名 ftp 连 接 到 prep.ai.mit,edu、ftp.uu.net 或 者 世 
界 其 他 地 方 的 一 些 机 器 ， 取 回 压缩 tar 文 件 pub/gnu/gcc-version.tar.gz， 其 中 
version 是 可 用 的 最 高 版 本 号 。 同 一 目录 中 的 文件 GETTING .GNU . SOFTWARE 对 初学 者 会 有 
所 帮助 。 … 


C.3.2 LCC 


lec JÈ Hi Christopher Fraser 和 David Hanson 编 号 写 的 一 个 易于 移植 到 其 他 目标 机 的 ANSI C 编 译 
器 。 它 可 通过 匿名 ftp.princeton.edu 在 有 目录 pub/1icc 中 得 到 。 建 议 你 先 从 那个 目录 取得 文件 
RERADMBE 开 始 。 它 的 前 端 已 被 修改 用 于 SUIF 系 统 (参见 下 一 小 节 ) 。lcc 也 可 以 从 
http://www.cs.princeton.edu/software/lcc 获 得 。 . 

这 个 编译 器 没有 优化 器 ， 但 是 它 的 中 间 代 码 适 合 于 本 书 讨论 的 大 部 分 优化 。 

在 [FraH91b] 中 有 关于 该 编译 器 的 简要 介绍 ， 在 [FraH95] 中 有 详细 的 介绍 。 如 果 你 希望 加 入 
lcc 邮 件 列表 ， 可 发 送 电子 邮件 信息 subscribe lcc 到 majordomo@cs.princeton.edu。 有 关 更 多 的 信 
息 ， 请 访问 http:/www.cs.princeton.edu/software/lcc 。 

C.3.8 SUIF 


SUIF 是 由 Monica Lam 和 她 在 斯 坦 福 大 学 的 同事 一 起 开发 的 一 个 实验 型 编译 系统 2 ， 它 由 
中 间 格 式 、 组 成 编译 器 的 核心 部 分 ， 以 及 一 个 将 C 或 Fortran 77 转 换 为 MIPS 代 码 且 具有 并 行 化 
功能 的 编译 器 组 成 。 这 个 发 布 版 本 还 包含 以 下 一 些 内 容 : 

1.C 和 Fortran 77 前 端 。 

2. 数组 数据 依赖 关系 分 析 库 。 

3. 循环 转换 库 〈 基 于 么 模 变换 和 循环 铺 砌 ) 。 

4. 矩阵 和 线性 不 等 式 运算 库 。 

5. 并 行 代码 生成 器 和 运行 库 。 

6. 标量 优化 器 。 

7. MIPS 后 端 。 

8.C 后 端 〈 因 此， 本 地 C 编 译 器 可 以 作为 非 MIPS 系 统 的 后 端 )。 

9. 线性 不 等 式 计算 器 (用 于 原型 算法 )。 

10. 可 用 于 编译 课程 的 简化 接口 。 

SUIF 可 从 http://suif.stanford.edu 获 得 。 

SUIFE 的 发 布 版 本 不 包含 担保 ， 也 没有 关于 支持 的 承诺 ， 它 可 以 自由 地 用 于 非 商业 目的 ,但 
禁止 重新 发 布 。 

SUIF 并 不 打算 作为 产品 质量 的 编译 器 。 它 运行 得 既 不 快 ， 也 不 能 像 gcc 或 你 的 机 器 上 的 编 
译 器 所 能 做 到 的 那样 高 效 地 生成 代码 。 但 是 ， 它 能 够 编译 主要 的 基准 测试 程序 ， 并 且 能 作为 学 
生 项 目 或 编译 研究 的 一 个 基础 。 ”， 


C.4 代码 生成 器 的 产生 器 : BURG 和 IBURG 
BURG 是 一 个 基于 BUGS 技 术 (参见 [Pele88] 和 [PelG88]) 的 代码 生成 器 的 产生 器 ， 是 由 


| © SUIF 的 名 字 代 表 Stanford University Intermediate Form, 
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Christopher Fraser, Robert Henry#f Todd Proebsting 编 写 的 ， 可 以 通过 匿名 ftp 从 
kaese.cs.wisc.edu 获 得 。 它 作为 一 个 压缩 的 shar 档 案 文件 提供 在 位 于 pub/burg .shar .7z 的 文 
件 中 。[FraH91a] 提 供 了 该 系统 的 概述 以 及 它 的 使 用 说 明 。 C 

IBURG 是 另 一 个 代码 生成 器 的 产生 器 ， 它 也 基于 BUGS 技 术 ， 但 能 进行 编译 时 的 动态 程序 
设计 ，IBURG 的 编写 者 是 Fraser、Hanson 和 Proebsting [FraH92]， 通 过 匿名 ftp 可 以 从 
ftp.cs.princeton.edu 获 得 它 。 这 是 一 个 压缩 的 tar 文 件 pub/iburg.tar.z 或 
pub/iburg .tar .zip。[FraH92] 给 出 了 关于 这 个 系统 以 及 如 何 使 用 它 的 概述 。 


C5 剖面 分 析 工 具 


C.5.1 QPT 


QPT 是 由 威斯康星 大 学 的 Thomas Ball 和 Jamea Larus 编 写 的 一 个 准确 和 高 效 的 程序 剖面 分 
析 器 和 追踪 系统 。 它 重 写 一 个 程序 的 可 执行 文件 (a .out )， 在 其 中 插入 代码 记录 每 一 个 基本 
块 或 控制 流 边 的 执行 频率 或 执行 序列 。 另 一 个 叫做 QPT_STATS 的 程序 则 从 这 些 信息 中 计算 程 
序 的 各 个 过 程 的 执行 代价 。 与 UNIX 工 具 prof 和 gprof 不 同 ，QPT 记 录 精 确 的 执行 频率 而 不 是 
采样 统计 。 当 追踪 一 个 程序 时 ，QPT 产 生 一 个 轨迹 再 生成 程序 ， 这 个 程序 读 入 高 度 压 缩 的 轨迹 
文件 并 生成 完整 的 程序 轨迹 。 要 获得 QPT 和 它 的 文档 ， 可 访问 http://www.cs. wisc.edu/ 
~larus/qpt.html， 并 遵循 在 那里 找到 的 说 明 。 

当 用 来 进行 剖面 分 析 时 ，QPT 使 用 两 种 模式 。 在 慢 模 式 中 ， 它 在 程序 的 每 一 个 基本 块 放置 
一 个 计数 器 。 在 快 模式 中 ， 它 在 程序 控制 流 图 边 集合 的 非 频 繁 执行 边 的 子 集 上 放置 计数 器 。 这 
样 放置 可 以 将 剖面 分 析 的 代价 减少 3 到 4 倍 ， 但 稍微 增加 了 产生 剖面 或 轨迹 信息 所 需要 的 时 间 。 

QPT 当 前 运行 在 SPARC 系 统 并 且 被 编写 成 可 移植 的 一 一 所 有 与 机 器 相关 的 特征 都 集中 在 少 
数 几 个 文件 中 。 移植 这 个 程序 到 一 个 新 机 器 大 约 需要 花 两 个 人 一 个 月 的 时 间 。 QPT 的 发 布 包含 
了 源 代 码 和 少量 的 文档 。 

QPT 也 是 一 个 叫做 WARTS (Wisconsin Architectural Research Tool Set) 的 大 项 目的 一 部 分 ， 
.可 用 http://www.cs.wisc.edu/~larus/warts.html 访 问 这 个 项 目 。 


C.5.2 SpixTools 和 Shade 


SpixTools 是 由 Sun Microsystems 公 司 的 Robert Cmelik 编 写 的 允许 对 SPARC 应 用 程序 进行 指 
令 级 性 能 分 析 的 一 组 程序 。[Cmel93] 给 出 了 它 的 一 个 指南 性 介绍 ， 并 提供 了 关于 SpixTools 的 
参考 手册 。 

Spix 创 建 用 户 程序 的 一 个 插 有 测量 桩 的 副本 。 当 这 个 带 测 量 桩 的 副本 运行 时 ， 它 追踪 每 一 
个 基本 块 的 执行 情况 ， 并 写 出 基本 块 的 最 终 执行 次 数 统计 。 有 一 些 工具 可 以 显示 和 总 结 这 些 统 
计 。Spixstats 可 打印 出 列表 ， 列 出 操作 码 的 使 用 、 分 支行 为 、 寄 存 器 使 用 、 函 数 使 用 等 数据 。 
Sdas 可 反 汇 编 应 用 程序 ， 并 用 注释 标 出 反 汇 编 代 码 指 令 的 执行 次 数 。Sprint 能 打印 出 应 用 程序 
的 源 代码 ， 同 时 标注 出 语句 或 指令 的 计数 。 

使 用 SpixTool 的 应 用 程序 必须 静态 连接 ， 并 且 不 能 使 用 自我 修改 的 代码 。 此 外 还 有 其 他 几 
个 限制 。 

Shade 是 一 个 指令 集 模 拟 器 和 定制 的 轨迹 生成 器 ， 它 是 由 David Keppel 和 Robert Cmelik 编 写 
的 。 它 在 用 户 提供 的 轨迹 分 析 器 的 控制 下 执行 和 追踪 应 用 程序 。 为 了 减少 通信 开销 ，Shade 和 
分 析 器 在 同一 个 地 址 空间 运行 。 为 了 进一步 改善 性 能 ， 模 拟 和 追踪 应 用 程序 的 代码 是 动态 生成 
的 ， 并 保存 下 来 可 以 重用 。 当 前 的 实现 运行 在 SPARC 系 统 ， 并 且 在 不 同 程度 上 模拟 SPARC 


~ 
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Version 8 和 Version 9 以 及 MIPS I 体系 结构 。[CmeK93] 介 绍 了 Shade 的 功能 、 设 计 、 实 现 和 性 能 ， 
并 讨论 了 一 般 的 指令 集 模拟 。 

.Shade 提 供 了 细 粒 度 的 追踪 控制 ， 因 此 只 有 实际 需要 的 数据 才 有 数据 搜集 开销 。Shade 是 可 
扩充 的 ， 这 使 得 可 使 用 能 够 考察 任意 状态 的 分 析 器 ， 并 搜集 Shade 本 身 不 知道 如 何 搜集 的 特殊 
信息 。 | 

为 了 获得 SpixTools 和 Shade， 可 向 Robert Cmelik 申 请 许可 表格 ， 联 系 地 址 是 Sun 


Microsystems, Inc., 2550 Garcia Avenue, Mountain View，CA94043-1100， 电 话 415-336-1709， 
电子 邮件 rfc@sun.com。 
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(Ox, 十 六 进 制 数 前 级 ，HIR、MIR 和 LIR 中 )， 
74, 76 
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中 )，27, 29 . 
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A), HIR. MIRTILIRIB), 74 

| (alternation operator), in XBNF notation (1 (选择 运算 
符 )，XBNF 表 示 中 ) , 19, 20 

8, antidependence operator ( 宁 ， 反 依赖 运算 符 ) 268 

+ (arbitrary distance), in direction vectors (+ (任意 距 
离 )， 方 向 向 量 中 ) , 278 

* (arbitrary distance), in direction vectors (* (任意 距离 )， 
方向 向 量 中 ) , 278 
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分 界 符 )，ICAN 中 )，24, 27, 30 
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值 运算 符 )，HIR、MIR 和 LIR 中 ),，73, 74, 79, 
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ICAN 中 )，24, 36, 37 

B (back-edge label)，in depth-first presentation of 
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B (binding graph) , in interprocedural analysis (B (£5 
合 图 )， 过 程 间 分 析 中 )，623-627, 643-646 
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SHE), ICANH), 32 
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ICAN 中 )，21 
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and LIR ( —(...) CAE Wis 9E TE). HIR. 
MIR 和 LIR 中 )，74, 75 

& control-dependence operator ( 宁 ， 控 制 依赖 关系 运算 
符 )，267-268 
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2 58). 277, 278 
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中 )，27, 29 
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ICAN#), 24, 27, 32 
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mH), 24, 27,31 
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19, 140 

{...} (enumerated type delimiters), in ICAN ({...} (4&3 
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类 型 分 界 符 )，ICAN 中 )，23, 26, 29 
= (equal to operator), in HIR, MIR, and LIR (= (相等 运 
St), HIR. MIRAÁILIRH:), 74 


= (equal to operator), in ICAN (= (相等 运算 符 )，ICAN 
中 )，27，28，29，30 

3 (existential quantifier), in ICAN ( 3 (存在 量词 ) ， 
ICAN), 27,28 


E (exponent delimiter), in HIR, MIR, and LIR (E (指数 
分 隔 符 ) , HIR, MIRRILIRH:), 74 

E (exponent delimiter), in ICAN (E (指数 分 隐 符 ) ， 
ICAN), 28,29 

t (exponentiation operator), in ICAN (1 (8352873), 
ICANth), 27,29 

*. (field indirection operator), in HIR, MIR, and LIR ( *. 
( 域 间 接 运算 符 )，HIR、MIR 和 LIR 中 )，74 

. (field selection operator),in HIR, MIR, and LIR (. (3 
选择 运算 符 )，HIR、MIR 和 LIR 中 )，74,79 

. (field selection operator)in ICAN (. ( 域 选 择 运算 符 )， 
ICAN), 27,34 

5' , flow-dependence operator (565， 流 依赖 运算 符 ) ,268 

F (forward-edge label), in depth-first presentation of 
flowgraph (F (前 向 边 标 号 ) ， 流 图 的 深度 为 主 
表示 中 )，178 

o, function composition (o, MRA) , 235 

— (function type constructor),in ICAN (一 (函数 类 型 构 
造 符 )，ICAN 中 )，23, 26, 28, 34 

> (greater than operator), in HIR, MIR, and LIR (> (大 
于 运算 符 )，HIR、MIR 和 LIR 中 )，74, 75 

> (greater than operator), in ICAN (> (大 于 运算 符 )， 
ICAN 中 )，27, 29 

>= (greater than or equal to operator), in HIR, MIR,and 
LIR (>= (大 于 等 于 运算 符 )，HIR、MIR 和 LIR 
中 )，74, 75 

> (greater than or equal to operator), in ICAN ( > (KF 
等 于 运 算 符 ) ，ICAN 中 )，27,29 

{...} (grouping operator), in XBNF notation ({...} (成 组 
运算 符 )，XBNF 表 示 中 )，19 

œ (infinite value), in ICAN (œ (无 穷 值 )，ICAN 中 )， 
24, 28, 29 

&, input-dependence operator (8, 输入 依赖 运算 符 ) ， 
268 

* (Kleene closure operator, unary postfix), applied to 
functions (x ( 克 林 闭 包 运 算 符 ， 一 元 后 缀 )， 
作用 于 函数 ) 235 

: (label separator), in HIR, MIR, and LIR (: (标号 运 
算 符 )，HIR、MIR 和 LIR 中 )，74, 75, 79, 80 

: (label separator), in ICAN (: (标号 运算 符 ), ICAN 中 )， 
37 


1, lattice bottom value ( 上 ， 格 的 底 值 ) , 223 

1 (iattice bottom value), in ICAN (1 ( 格 的 底 值 )， 
ICAN 中 ) , 225, 364 

J, lattice greater than operator ( 刁 ， 格 的 大 于 运算 符 )， 
225 

=, lattice greater than or equal to operator ( 
于 等 于 运算 符 )，225 

U, lattice join operator ( U ， 格 的 并 运算 符 )，223 


d, HA 


C, lattice less than operator (C , Hf; Tos BF), 
225 

C (lattice less than operator), in ICAN (€ ，( 格 的 小 于 
运算 符 )，ICAN 中 )，639 

C. , lattice less than or equal to operator (©, ， 格 的 小 于 
等 于 运算 符 )，225 


r1, lattice meet operator ( 门 ， 格 的 交 运 算 符 )，223 

n (lattice meet operator), in ICAN ( N ( 格 的 交 运 算 符 )， 
ICAN 中 )，232, 367, 639 

T, lattice top value ( T ， 格 的 顶 值 ) 223 

T (lattice top value), in ICAN (7 ( 格 的 顶 值 )，ICAN 
中 )，225, 232, 364 

< (less than operator), in HIR, MIR, and LIR (< (小 于 运 
$311), HIR. MIRATILIRH: ) , 74 

< (less than operator), in ICAN (< (小 于 
ICAN 中 ) ,27,29 

<= (less than or equal to operator), in HIR, MIR, and LIR 
(<= (小 于 等 于 运算 符 )，HIR、MIR 和 LIR 中 )， 
74 

< (less than or equal to operator), in ICAN (< (小 于 等 
于 运算 符 )、ICAN 中 )，27, 29 

< lexicographically less than operator ( < ， 词 典 序 小 于 
运算 符 )，275 

X, lexicographically less than or equal to operator ( < 
词典 序 小 于 等 于 运算 符 )，276 

t (load operator, unary), in machine M » t (HR 
数 运算 符 ， 一 元 操作 )， 机 器 语法 中 )， 

& (logical and operator), in ICAN (& (3248 s Wm. 
ICAN 中 ) , 27, 28 

! (logical not operator, unary), in HIR, MIR, and LIR (! 
(逻辑 非 运算 符 )，HIR、MIR 和 LIR 中 )，74, 75 

(逻辑 非 运 


运算 符 )， 


! (logical not operator, unary), in ICAN (! 
SH), ICAN} ), 27, 28 

V (logical or operator), in ICAN (V (逻辑 或 运算 符 )， 
ICAN#), 27,28 

€ (member of set operator), in ICAN ( € (集合 成 员 运 

4$57F:), ICAN} ), 27, 28, 31, 34 

% (modulo operator), in ICAN (% (RAAT), ICAN 
Hy), 27,29 

* (multiplication operator), in HIR, MIR, and LIR (* 
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(ES 311), HIR, MIRTILIRIB), 74,75 

* (multiplication operator), in ICAN (* (乘法 运算 符 )， 
ICAN 中 )，27, 29 

— (negation operator, unary), in HIR, MIR, and LIR( 一 
( 取 负 运算 符 , 一 元 操作 ); HIR. MIREILIRH:), 
74, 75 

— (negation operator, unary), in ICAN ( - 〈 取 负 运 算 符 ， 
一 元 操作 )，ICAN 中 )，27, 29 

> (negative distance), in direction vectors (> ( (FER), 
方向 向 量 中 )，278 

- (negative distance), in direction vectors ( - 【〈 负 距离 )， 
方向 向 量 中 )，278 

+ (non-empty closure operator, unary postfix), applied to 
functions (+《〈 非 空 闭 包 运算 符 ， 一 元 后 缀 )， 作 
用 于 国 数 )，235 

!= (not equal to operator), in HIR, MIR, and LIR (!= (不 
相等 运算 符 ) ，HIR、MIR 和 LIR 中 ), 74, 75 

+ (not equal to operator), in ICAN ( + (不 相等 运算 符 )， 
ICAN 中 )，27, 28, 29, 30 

€ (not member of set operator), in ICAN (e (不 属于 集 
合成 员 运算 符 )，ICAN 中 )，27, 31 

* (one or more copies operator, unary postfix), in XBNF 
notation (+ (一 次 以 上 复制 运算 符 ， 一 元 后 缀 )， 
XBNF 表 示 中 )，19, 20 

[...] (optional operator), in XBNF notation ([...] (可 选 运 
算 符 )，XBNF 表 示 中 )，19, 20 

&, output-dependence operator (全 ， 输 出 依赖 运算 符 )，268 

II (pair binding graph), in interprocedural alias analysis 
(II (成 对 结合 图 )， 过 程 间 别名 分 析 中 ) ， 
643,649-653 

%fri, PA-RISC floating-point register i (%fri , PA-RISC 
浮 点 寄存 器 i) ，754 

%fri L, PA-RISC floating-point register i, left part ( %fri L ， 
PA-RISC 浮 点 寄存 器 i 的 左 部 )，754 

%friR, PA-RISC floating-point register i, right part 
(96friR ，PA-RISC 浮 点 寄存 器 i 的 右 部 )，754 

%ri, PA- RISC integer register i (%ri, PA-RISCE 2 
tE Bi), 754 

%% (percent character), in ICAN (%% ( 百 分 号 字符 )， 
ICAN 中 )，29 

中 function, static single assignment form (中国 数 ， 静 态 
单一 赋值 形式 )，252, 253 

* (pointer indirection operator, unary), in HIR, MIR, and 
LIR (* (指针 间接 运算 符 , 一 元 )，HIR、MIR 
和 LIR 中 )，74, 75, 79 

. (position indicator), in LR(1) items (. (位 置 指示 符 )， 
LR(1) 项 目 中 ), 144 

< (positive distance), in direction vectors (< (EER), 


方向 向 量 中 ) ，278 
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+ (positive distance), in direction vectors (+ (EEX), 
方向 向 量 中 )，278 

4 , precedes-in-execution-order operator ( < ， 执 行 顺序 
上 的 先 于 运算 符 )，267, 275 

%" (quotation mark character), in ICAN (%" (引号 字符 )、 
ICAN 中 ), 29 

<...> (record constant delimiters), in ICAN (<...> (记录 
常数 分 界 符 )，ICAN 中 )，27, 33 

{...} (record type constructor), in ICAN ({...} (记录 类 型 
构造 符 ) ，ICAN 中 )，23, 26, 33 

@ (select from set operator, unary}, in ICAN (@ (MH 
合 中 选择 运算 符 ， 一 元 ) ICAN), 24, 27, 31 

ba (separated list operator), in XBNF notation ( cq (分 
开 的 表 运 算 符 )，XBNEF 表 示 中 ) 19, 20 

® (sequence concatenation operator), in ICAN (@ (序列 
连接 运算 符 )，ICAN 中 )，24, 27, 32 

[...] (sequence constant delimiters), in ICAN ([...] (序列 
常数 分 界 符 ) ，ICAN 中 )，24, 27, 32 

e (sequence member deletion operator), in ICAN ( e 
(序列 成 员 删 除 运算 符 )，ICAN 中 )，24, 27, 32 

i (sequence member selection operator), in ICAN ( 1 
(序列 成 员 选 择 运 算 符 ) ICAN), 27, 32 

{...} (set constant delimiters), in ICAN ({...} (集合 常数 
分 界 符 )，ICAN 中 )，27, 31 

N (set intersection operator), in ICAN (N (集合 交 运 算 
符 )，ICAN 中 )，27, 31 

U (set union operator), in ICAN (U (集合 并 运算 符 )， 
ICAN 中 )，27, 31 

%' (single quotation mark character), in ICAN (%' ( 单 引 
号 字符 )，ICAN 中 )，29 

|...1 (size operator), in ICAN (1...) (大 小 运算 符 ), ICAN 
中 )，24, 27, 36 

%fi, SPARC floating-point register i (%fi, SPARC 浮 点 
寄存 器 i) ，748 

%gi, SPARC integer general register i (95gi, SPARCÉÉ 
数 通 用 寄存 器 i ，748 

%ii, SPARC integer in register i (%ii, SPARC Bri A 
寄存 器 i)) ，748 

%li, SPARC integer local register i (%li，SPARC 整 数 局 
部 寄存 器 门 ，748 

950i, SPARC integer out register i (%oi, SPARCÉE AH 
出 寄存 器 i) ，748 

Pri, SPARC integer register i( %ri, SPARC 整 数 寄存 器 站， 
748 

«sp (speculative load operator), extension to LIR ( -sp 
(前 瞻 取 运算 符 )， 扩 充 到 LIR 的 )，547, 548 

; (statement separator), in ICAN (; (语句 分 隔 符 )， 
ICAN 中 )，21,37 


«(store operator), in machine grammars («~ (存储 运算 
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符 )， 机 器 语法 中 )，139 

..(subscript range operator), in ICAN (.. (下 表 范 围 运算 
符 )，ICAN 中 )，26, 30 

— (subtraction operator), in HIR, MIR, and LIR ( — (3& 
法 运算 符 )，HIR、MIR 和 LIR 中 )，74. 75 

— (subtraction operator), in ICAN ( — (减法 运算 符 )， 
ICAN 中 ), 27, 29 

<...> (tuple constant delimiters), in ICAN (<...> (元 组 常 
数 分 界 符 )，ICAN 中 )，27 

@ (tuple element selection operator), in ICAN (@ (元 组 
元 素 选 择 操 作 符 )，ICAN 中 )，24, 27, 33 

x (tuple type constructor), in ICAN ( x (元 组 类 型 构造 
7f), ICANH), 23, 26, 28, 33 

= (type definition operator), in ICAN (= (类 型 定义 操作 
符 )，ICAN 中 )，25, 26, 35 

U (union type constructor), in ICAN (U (联合 类 型 构造 
TF), ICANH), 23, 26, 28, 34 

V (universal quantifier), in ICAN ( v (全 体 量词 )， 
ICAN 中 )，27, 28 . 

6" (write-live dependence)，( 6" (5 — 活跃 依赖 )) 571 

= (zero distance), in direction vectors (= ( 零 距 离 )， 方 
向 向 量 中 ) ,278 

* (zero or more copies operator, unary postfix), in XBNF 
notation (* 〈 零 或 多 次 重复 运算 符 ， 一 元 后 缀 )， 
XBNE 表 示 中 )，19, 20 


A 


ABI. See Application Binary Interface (ABI)standards 
(ABI， 参 见 应 用 程序 二 进 制 接口 (ABI) 标准 ) 
abstract flowgraphs (抽象 流 图 ) 198 
abstract nodes (抽象 结 点 ) 198 
abstract syntax tree ( 抽象 语法 树 ) ， 70-71 
accumulator-variable expansion ( AmE ZEP). 
562-564 
Action/Next tables, Graham-Glanville code generator 
( Action/Nextk, Graham-GlanvillefC RAE p ), 
149-150, 158 
acyclic control structures (无 环 控制 结构 ) 
backward structural data-flow analysis (向 后 结构 数据 
流 分 析 ) 245,246 
forward structural data-flow analysis (向 前 结构 数据 流 
分 析 )，239-240 
structural control-flow analysis (结构 控制 流 分 析 )， 
202-204, 207-208 
acyclic test (无 环 测试 ) , 284 
Ada 
call by value-result in ( 传 值得 结果 )，117 
enumerated value representation ( 枚 举 值 表示 )，107 


scoping issues (作用 域 问题 ) , 52 
unnecessary bounds-checking elimination for (不 必要 
边界 检查 的 消除 ) , 454-457 
addition operator (+) (加 法 运算 符 (+)) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) , 74 
in ICAN (ICAN 中 ) , 27, 29 
addressing expressions，algebraic simplification and 
reassociation (地 址 表达 式 、 代 数 化 简 和 重 结合 )， 
334-341 
addressing method, symbol-table variables ( 寻 址 方法 ， 
符号 表 变 量 ) , 54-55 
adjacency-list representation for interference graphs (ñp 
突 图 的 邻接 表 表 示 ) 487, 496-497, 498,499, 530 
examples ( 例 )，498, 514, 516, 517, 520 
adjacency-matrix representation for interference graphs 
(冲突 图 的 邻接 矩阵 表示 )，487, 495-496, 497, 
530 
examples ( 例 ) , 496, 513-516, 519 
affix-grammar-based code-generator generators {基于 词 
缀 文法 的 代码 生成 器 的 生成 器 )，159-160 
aggregation of global references (全 局 引用 的 聚合 ) 663 
importance of (重要 性 ) , 664 
order of optimizations 《优化 的 闫 序 ) 665-666 
Aho, Alfred V., 160, 165, 351 
algebraic simplifications and reassociation (代数 化 简 和 
重 结合 ) , 333-343 
of addressing expressions ( 地址 表达 式 的 ) , 334-341 
algebraic simplifications (代数 化 简 ) 
defined (4g X.) ,333 
for binary operators (用 于 二 元 运算 符 ) , 333 
for bit-field types (用 于 位 域 ) ,333 
for Booleans (用 于 布尔 量 ) , 333 
canonicalization (规范 化 ) , 335-336 
of floating-point expressions ( 浮 点 表达 式 的 ) , 342- 
343 
order of optimizations (优化 顺序 ) , 333, 372 
overview (概述 ) , 371 
reassociation, defined ( 重 结合 ， 定 义 ) , 333 
for relational operators (用 于 关系 运算 符 ) , 333-334 
strength reductions (强度 削弱 ) , 334 
tree transformations ( 树 转 换 ) , 337-341 
for unary operators (用 于 一 元 运算 符 ) , 333 
using commutativity and associativity (使 用 交换 率 和 
结合 率 ) , 334 
ALGOL 60 
call by name in ( 传 名 字 ) , 118 
call by value in 〈 传 值 ) , 117 
labels as arguments (标号 作为 实 参 ) , 118-119 
ALGOL 68 





* s 


call by reference in ( f£HbhE) , 118 
call by value in ( f£fÉ) , 117 
algorithms (算法 ) . See also specific types of analyses 
and optimizations (同时 参见 分 析 和 优化 的 各 种 


特定 类 型 ) 
binding graph construction (结合 图 构造 ) , 625, 643, 
645 


call graph nesting levels (调用 图 的 嵌 套 层 ) , 629-630 

call-graph construction (调用 图 构造 ) , 609-611 

call-graph construction with procedure-valued variables 
( 带 过 程 值 变量 的 调用 图 构造 ) , 612-618 

code hoisting (代码 提升 ) , 418-419 

combining alias information with alias-free version ( 9 
名 信息 与 免除 别名 的 版 本 合并 ) , 651, 654 

computing aliases for nonlocal variables (计算 非 局 部 
变量 的 别名 ) , 643-646, 647 . 

computing formal-parameter alias information (计算 形 
式 参 数 的 别名 信息 ) , 650-651, 653 

constant folding (53s frd) , 330 

dead-code elimination ( 死 代码 删除 ) , 592-593, 596 

- dependence DAG construction (依赖 DAG 构 造 ) , 273- 

274 

depth-first search for dominator computation ( 必 经 结 
点 计算 的 深度 为 主 搜索 ) , 187 

dominator computation using Dom_Comp (使 用 
Dom_comp 的 必 经 结 点 计算 ) , 182 

dominator computation using Domin_Fast (使 用 
Domin_Fast 的 必 经 结 点 计算 ) , 186-187 

dynamic programming algorithms (动态 规划 算法 ) ， 
163-165 


global common-subexpression elimination (全 局 公共 


FRIAR) , 388-390, 391-394 
GMOD( ), 630-631 
Graham-Glanville code-generation algorithm (Graham- 
Glanvilie 代 码 生 成 算法 ) , 142-143 
greedy or maximal munch ( 贪 禁 的 或 贪 吃 的 ) , 141 
IMOD * (), 628 i 
instruction scheduling (指令 调度 ) , 540-541 


interprocedural constant propagation. (it f& 间 常 数 传 


播 ) , 637-639 

intraprocedural code positioning ( 过程 内 的 代码 放 
置 ) ,678-681 

inverting nonlocal alias function (颠倒 非 局 部 别名 衣 
数 ) , 646-647, 648 

label evaluation for dominator computation (用 于 必 有 经 
结 点 计算 中 的 标号 计算 ) ,188 

linking for dominator computation (用 于 必 经 结 点 计算 
中 的 链接 ) , 188 


local common-subexpression elimination (局 部 公共 子 
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表达 式 删 除 ) , 380-381 

local copy propagation (局 部 复写 传播 ) , 356-358 

loop-invariant code motion (循环 不 变 代码 外 提 )， 
397-400, 403-404 

marking parameter pairs in pair binding graph (标志 成 
对 结合 图 中 的 参数 偶 对 ) , 650, 652-653 

MOST pipelining algorithm (MOST 流 水 算法 ) , 567 

natural loop (正常 循环 ) , 192 

pair binding graph construction .( 成 对 结合 图 构造 ) ， 
649-650 

partitioning for global value numbering (全 局 值 编号 的 
划分 ) , 351-355 

path-compression for dominator computation ( 必 经 结 
点 计算 的 路 径 压 缩 ) , 187 

percolation scheduling (渗透 调度 ) , 572 

procedure sorting (过 程 排 序 ) , 673-676 

RBMOD() on binding graph (结合 图 的 RBMODO) , 
626 

sparse conditional constant propagation (稀有 条 件 常 
数 传播 ) , 364-366 

strength reduction (强度 前 弱 ) , 436-438 

strongly connected components ( 3431384) & ) , 195 

structural control-flow analysis (结构 控制 流 分 析 ) ， 
205-206 

unreachable-code elimination (不 可 到 达 代 码 删 除 ) ， 
580-581 

unroll-and-compact software pipelining (展开 — 压 实 | 
软件 流水 ) , 557-558 - 

window scheduling (窗口 调度 ) , 552-553 

worklist for iterative data-flow analysis (迭代 数据 流 分 

RENTER) , 232-233 


alias analysis ( 别名 分 析 ) , 293-317. See also 


interprocedural alias analysis (同时 参见 过 程 间 
别名 分 析 ) 

alias gatherer ( 别名 搜集 器 ) , 203-207, 315 

alias propagator (别名 传播 器 ) , 307-314, 315 

aliases in C (C 中 的 别名 ) , 300-301,305-306 

aliases in Fortran 77 (Fortran 77 的 别名 ) , 298-299 

aliases in Fortran 90 (Fortran 90 的 别名 ) , 301-302, 
305 

aliases in Pascal (Pascal 的 别名 ) , 299-300, 304, 305 

Alpha compilers (Alpha 编译 器 ) , 729 

cases (情形 ) , 295-296 

described (描述 ) , 293 

flow-insensitive may information ( 流 不 敏感 可 能 信 
息 ) ,295 

flow-insensitive must information ( 流 不 敏感 一 定 信 
息 ) ,295 


flow-sensitive may information (Wik R TAEAE) ， 
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295-296 
flow-sensitive must information ( 流 敏 感 一 定 信息 ) . 
296 


flow-sensitive vs. flow-insensitive information ( jfi & 
与 流 不 敏感 信息 ) , 294-295, 315 
granularity of information 《信息 粒度 ) ,297, 315 
importance of (重要 性 ) , 293-294, 314-315 
interprocedural (过 程 间 的 ) , 641-656 
may vs. must information ( 可 能 与 一 定 信息 ) , 294, 
315 
sources of aliases (别名 的 原因 ) , 296-297 
alias gatherer ( 别名 搜集 ) , 203-207 
aliases in C (C 中 的 别名 ) , 305-307 
described (描述 ) ,315 
examples of aliasing concepts (别名 概念 的 例子 ) ， 
303 
nontermination (不 终止 ) , 304 
program points (程序 点 ) , 303 
sources of aliases ( 别名 的 原因 ) , 296-297 
alias propagator ( 别名 传播 器 ) , 307-314 
for C code (C 代 码 情形 ) , 309-314 
described (描述 ) , 296, 315 
examples of aliasing concepts (别名 概念 的 例子 ) ， 
303 
Allen, Francis E., 449, 459 
alloca(), pointers and (alloca()， 指 针 ) , 113 
Alpern, Bowen, 348, 355 
Alpha architecture (Alpha 体 系 结构 ) , 726 
Alpha compilers (Alpha 编译 器 ) , 726-733 
alias analysis (944,497) , 729 
assembly code examples (汇编 代码 的 例子 ) , 730-733 
assembly language (汇编 语言 ) , 750-752 
CIL code (CIL 代 码 ) , 727-728 
code generator (代码 生成 器 ) , 730 
data prefetching (数据 预 取 ) ,698 
data-flow analysis (数据 流 分 析 ) , 729 
development (开发 ) , 726-727 
EIL code (EIL 代 码 ) , 727, 728, 730 
global optimizations (全 局 优化 ) , 729 
inlining (内 联 ) , 729 
instruction prefetching (指令 预 取 ) , 672 
languages supported (支持 的 语言 ) , 727 
loop inversion ( 循环 倒置 ) , 729 
mixed model of optimization in (优化 的 混合 方式 )，9 
optimization levels (优化 级 别 )， 728-729 
order of optimizations (优化 的 顺序 ) 705 
peephole optimizations ( 罕 孔 优化 ), 729,730 
register allocation (寄存 器 分 配 ) , 483,485 
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alternation operator (D, in XBNF notation 〈 选 择 运算 符 
(1), XBNFÆ 3| Y} , 19,20 
ancestor (祖先 ) , 185 
anticipatable registers, in shrink wrapping (可 预见 的 寄存 
器 ， 收 缩 包装 中 ) , 473 
anticipatable values (可 预见 的 值 ) ,410-411 
antidependence (有 反 依 赖 ) 
definition (4E X.) , 268 
operator (F) (运算 符 8)，268 
Application Binary Interface (ABI) standards (应 用 一 进 
制 接口 (ABI) 标准 )，105, 134 
arbitrary distance, in direction vectors (任意 距离 ， 方 向 
向 量 中 ) 
£,278 
* 278 
arbitrary relational operator (?) (任意 关系 运算 符 
(?)) ,449, 456 
architectures (体系 结构 ) 
Alpha, 726 
branch architectures (分 支 体系 结构 ) , 533 
Intel 386 family (Intel 386 系 列 ) , 734-735 
loop unrolling and (循环 展开 ) , 560-561, 562 
pipeline architectures (流水 线 体系 结构 ) , 531, 532- 
533 
POWER and PowerPC (POWER 和 PowerPC ) , 716- 
717 
SPARC, 707-708 
arguments (KB) . See also parameter-passing (run- 
time); parameters (同时 参见 参数 传递 (运行 
时 ) ; WEB) 
defined (4E Y.) , 117 
described (描述 ) , 111 
array constant delimiters ( [...] ), in ICAN (数组 常数 分 界 
TECL..]), ICAN p) , 24, 27, 30 
array...of, (array type constructor), in ICAN ( array...of 
(数组 类 型 构造 符 )，ICAN 中 ) ,23 
array types (ICAN) (数组 类 型 ，ICAN 的 ) 
binary operators ( 二 元 运算 符 ) ,30 
constants (常数 ) , 30, 33 
overview (概述 ) , 30 
arrays (数组 ) 
column-major order ( 列 为 主 顺 序 ) , 107 
in copy propagation (复写 传播 ) , 356 
data-flow analysis (数据 流 分 析 ) , 258-259 
function representation (函数 表示 ) , 764 
HIR representation (HIR 表 示 ) , 68-69 
last-write trees (最 近 写 树 ) , 259 
LIR representation (LIR 表 示 ) , 68-69 
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MIR representation (MIR 表 示 ) , 68-69 
row-major order (行为 上 顺序) , 107 
run-time representation (运行 时 表示 ) , 107-108 
scalar replacement of array elements (数组 元 来 的 标 鼠 
替换 ) , 682-687 
separable references (可 分 的 引用 ) , 282 
sparse set representation (稀疏 集合 表示 ) , 762-763 
storage binding (人 存储 绑 定 ) , 58 
unnecessary bounds-checking elimination (消除 不 必要 
的 边界 检查 ) ,454 
weakly separable references ( 9j uf 4) 83511) , 282, 
283 
ASCH, DEC VAX support (ASCII, DEC VAX X HP) ， 
106 
assembly code examples (汇编 代码 的 例子 ) 
Alpha compiler (Alpha 编 译 器 ) , 730-733 
Pentiums (奔腾 ) , 741-744 
POWER compiler (POWER 编译 跨 ) , 723-725 
SPARC compilers (SPARC 编 译 器 ) ,713-716 
assembly language (汇编 语言 ) , 747-755 
Alpha, 750-752 
Intel 386 family (Intel 386 系 列 ) , 752-753 
PA-RISC, 753-755 
POWER and PowerPC (POWER 和 PowerPC) , 749- 
750 
relocatable binary form vs. (可 重 定位 二 进 制 形式 ) ， 
138 
SPARC, 747-749 
assignment operator (赋值 运算 符 ) 
-, in HIR, MIR, and LIR (+, HIR、MIR 和 LIR 中 
的 ) ,73, 74, 79, 80 
:=, in ICAN (:=，ICAN 中 的 ) , 24, 36, 37 
assignment statements (ICAN), overview( 赋 值 语句 
(ICAN)， 概 述 ), 36-38 
assignments 《赋值 ) 
HIR, 79 
LIR, 80 
MIR, 75 
associativity, algebraic simplifications using (结合 率 ， 代 
数 化 简 中 的 使 用 ) , 334 007 
attribute-grammar-based code-generator generators (基于 
属性 文法 的 代码 生成 器 的 生成 器 ) , 159-160 
attributes of symbols in symbol tables (符号 表 中 符号 的 
属性 ) , 45-47 
list of ( 表 ) ,46 
Auslander Marc, 804 
automatic generation of code generators (代码 生成 器 的 
自动 生成 ) , 137-167. See also Graham-Glanville 
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code-generator generator ( 园 时 参见 Graham- 

Glanville 代 码 生 成 器 的 生成 器 ) 
Graham-Glanville code-generator generator (Graham- 

Glanville 代 码 生 成 器 的 生成 器 ) , 139-158 


issues in generating code (生成 代码 中 的 问题 ) ，137- 
138 


overview 《概述 ) ,6, 137-139 
semantics-directed parsing (语义 制导 的 分 析 ) , 159- 
160 
software resources (软件 资源 ) . 769-770 
syntax-directed technique (语法 制导 的 技术 ) , 139- 
158 
tree pattern matching and dynamic programming ( 树 模 
式 匹 配 和 动态 规划 )，160-165 
automatic inlining (自动 内 联 ) . See procedure 
integration (参见 过 程 集 成 ) 
automatic storage class ( 自动 存储 类 ) , 44 
automating data-flow analyzer (数据 流 分 析 器 自动 化 ) 
construction (构造 ) , 259-261 
automating instruction-scheduler (指令 调度 器 自动 化 ) 
generation (生成 ) ,543 
available expressions ( 可 用 表达 式 ) 
analysis (分 析 ) , 229 
global common-subexpression elimination (全 局 公共 
子 表达 式 删 除 ) , 385-387, 390 
local common-subexpression elimination (局 部 公共 子 
表达 式 删 除 ) ,379 
available registers, in shrink wrapping (可 用 寄存 器 ， 收 l 
缩 包装 中 ) , 473 


Babbage, Charles, 459 
back edges (81322) 
in depth-first presentation (深度 为 主 表示 中 ) , 178 
label (B), in depth-first presentation of flowgraph (b 
号 (B)， 流 图 的 深度 为 主 表 示 中 ) 178 
in natural loops (正常 循环 中 ) , 191 
Backus-Naur Form, Extended (XBNF) ( 巴 科 斯 - 诺尔 范 
: X, (XBNF)) , 19-20 
backward data-flow analysis (向 后 数据 流 分 析 ) 
iterative (CAI) . 229, 235 
live variables analysis (活跃 变量 分 析 ) , 445-447 
structural data-flow analysis (结构 数据 流 分 析 ) , 244- 
247 
balanced binary trees (3E.flgj - X BE) , 48, 761,763 
balanced scheduling (平衡 式 调度 ) , 545 
Ball, Thomas, 598 
Banerjee, Utpal, 289, 738 
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basic blocks (基本 块 ) . See also basic-block scheduling; 

cross-block scheduling (同时 参见 基本 块 调度 ; 
跨 基本 块 调度 ) 

in copy propagation (复写 传播 中 的 ) , 356 

correspondence between bit-vector positions, 
definitions, and basic blocks (位 向 量 的 位 置 、 定 
值 和 基本 块 之 间 的 对 应 ) , 219, 220 

data-flow analysis and (数据 流 分 析 ) , 218 

dependence DAGs (依赖 DAG) , 269-274 

extended (扩展 的 ) , 175-177, 361,565 

identifying (标识 ) , 173-174 

intraprocedural code positioning ( 过程 内 代码 安置 ) , 
677-681 

local common-subexpression elimination (局 部 公共 子 
3O53XMER) , 382-384 

local copy propagation for extended basic blocks (扩展 
基本 块 的 局 部 复写 传播 ) , 361 

placement in instruction cache (放置 在 指令 高 速 缓存 
中 ) ，676-677 

predecessor (前 驱 ) , 175,484 

reverse extended ( 逆 扩 展 的 ) , 175 

successor (后 继 ) , 175,484 

value numbering applied to (用 于 值 编 号 ) , 344-348 

basic induction variables (基本 妇 纳 变量 ) , 426, 427 


basic-block scheduling (基本 块 调度 ) . See also. 


instruction scheduling (同时 参见 指令 调度 ) 
balanced scheduling (平衡 式 调度 ) , 545 
combining with branch scheduling (与 分 支 调 度 结 
合 ) ,573 
described (描述 ) , 531 
filling stall cycles (填充 停顿 时 钟 周期 ) , 535 
list scheduling (列表 调度 ) , 535, 537-543 
loop unrolling and (循环 展开 ) , 532 
order of optimizations 《优化 的 顺序 ) , 574-575 
performance and (性 能 ) ,573 
register allocation and (寄存 器 分 配 ) , 545 
register renaming and (寄存 器 重 命名 ) , 532 
trace scheduling (踪迹 调度 ) , 569-570 
variable expansion and (变量 扩张 ) , 532 
basis, of a class of induction variables ( 基 ， 归 纳 变量 类 
的 ) ,428 
Bell, Ron, 670, 671 
Bernstein, David, 521,548 
bidirectional data-flow analysis (双向 数据 流 分 析 ) , 229 
bin-packing, register allocation and ( 装 包 ， 寄存 器 分 
Ki) , 484-485, 730 
binary operators ( 二 元 运算 符 ) 
algebraic simplifications (代数 化 简 ) ,333 


MIR, 75 
binary operators (ICAN) (二 元 运算 符 (ICAN)) 
array types (数组 类 型 ) , 30 
boolean types (布尔 类 型 ) , 28 
character types 《字符 类 型 ) , 29 
enumerated types ( 枚 举 类 型 ) , 30 
integer types (整数 类 型 ) , 29 
real types (实数 类 型 ) , 29 
record types (记录 类 型 ) , 34 
sequence types (序列 类 型 ) , 32 
set types (集合 类 型 ) , 31 
tuple types (元 组 类 型 ) , 33 
union types (联合 类 型 ) , 34 
binding graph (结合 图 ) 
flow-insensitive interprocedural alias analysis ( 流 不 敏 
感 过 程 间 别名 分 析 ) ，643, 645 
flow-insensitive side-effect analysis ( 流 不 敏感 副作用 
分 析 ) , 623-627 
pair binding graph (成 对 结合 图 ) , 649-650 
bit-field types, algebraic simplifications (位 域 类 型 ， 代 
数 化 简 ) ,333 
bit vectors (位 向 量 ) 
correspondence between bit-vector positions, 
definitions, and basic. blocks (位 向 量 的 位 置 、 定 
值 和 基本 块 之 间 的 对 应 ) , 219, 220 
defined (定义 ) ,218-219 
lattice of ( 格 ) ,224, 226 
linked-list representation vs. (链表 表示 ) , 757-759 
sequence representation (序列 表示 ) , 763 
set operations (集合 运算 ) , 759-760 
set representation ( 集合 表示 ) , 759-760 
BLISS compilers (BLISS 编 译 器 ) 
for Alpha (Alpha 的 ) , 727 
reducible flowgraphs and ( 可 归 约 流 图 ) , 196 
register allocation (寄存 器 分 配 ) , 483,484, 528 
block and procedure placement in instruction caches ( 指 
令 高 速 缓存 中 基本 块 和 过 程 的 放置 ) , 676-677 
block schema ( 块 的 图 解 ) , 203 
blocks, basic ( 块 ， 菇 本 的 ) . See basic blocks (IRS 
见 基本 块 ) 
boolean ICAN type (ICAN 布 尔 类 型 ) 
binary operators (二 元 运算 符 ) , 28 
Boolean-valued expressions (布尔 值 表达 式 ) , 28 
overview (概述 ) , 28 
symbol-table entries (符号 表 项 ) , 46 
Booleans (布尔 量 ) 
algebraic simplifications (代数 化 简 ) , 333 
run-time support (运行 时 的 支持 ) , 107 
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boosting (上 推 ) , 548 
bottom of lattices ( 格 的 底 ) , 223 
bottom-up rewriting systems(BURS) ( 自 下 而 上 重 写 系统 
(BURS)) , 165 i 
bounds checking (边界 检查 ) , 454. See also unnecessary 
bounds-checking elimination (同时 参见 消除 不 
必要 的 边界 检查 ) 
braces ( 花 插 号 ) . See curly braces (参见 花 括 号 ) 
brackets ( 方 括号 ) . See square brackets (参见 方 括号 ) 
Bradlee, David G., 526 
branch node (分 支 结 点 ) , 175 
branch optimizations (分 支 优化 ) , 589-590 
cases (情形 ) , 590 
described (描述 ) , 580 
detecting branches to branch instructions (检测 分 支 到 
分 支 的 指令 ) , 589 
order of optimizations (优化 的 顺序 ) , 589, 604 
branch prediction (分 支 预测 ) , 597-599 
described (#38) , 580, 597 
dynamic methods (动态 方法 ) , 597-598 
heuristics (FRX) , 598-599 f 
importance of (重要 性 ) , 579, 603 
instruction prefetching and (指令 预 取 ) , 673 
loop and nonloop branches (循环 和 非 循环 分 支 ) ， 
598-599 
order of optimizations (优化 的 顺序 ) , 604 
perfect static predictor (完美 静态 预测 器 ) ,598 
static methods (静态 方法 ) , 598 
branch scheduling (分 支 调 度 ) , 533-535 
branch architectures (分 支 体 系 结构 ) , 533 
combining with basic-block scheduling (与 基本 块 调度 
结合 ) , 573 
described (fxh) , 533 
filling delay slots (填充 延迟 槽 ) , 534-535 
filling stall cycles (填充 停顿 时 钟 周期 ) , 535 
flowchart (流程 图 ) , 536 
nullification (作废 ) , 534-535 
order of optimizations (优化 的 顺序 ) 574-575 
performance and (性 能 ) , 573 
breadth-first order (宽度 为 主题 序 ) , 181 
breadth-first search (宽度 为 主 搜索 ) , 181 
Briggs, Preston, 355, 414, 485, 495, 523,525, 762 
BURG, 769 


BURS, 165 

byte, usage in this book ( 字 节 ， 本 书 中 的 用 法 ) , 16-17 
C 
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alias propagator ( 别名 传播 器 ) , 309-314 


"aliases in (别名 ) , 300-301,305-307, 641 
basic-block boundaries (基本 块 边界 ) , 174 
call by reference in ( 传 地 址 ) , 118 
call by value in ( 传 值 ) , 117 
local variable declarations ( 局 部 变量 声明 ) , 58 
pointer aliasing (指针 别名 ) , 294 
pointers (指针 ) , 258 
tail-recursion elimination in ( 尾 递归 删除 ) , 461,462 
well-behaved loops (规则 循环 ) , 425 
C++ 
call by reference in ( 传 地 址 ) , 118 
call by value in ({#{&) , 117 
name mangling by cfront preprocessor (cfront fi 
处 理 器 的 名 字 重 塑 ) ,10 
scoping issues (作用 域 问题 ) , 52 
caches (高 速 缓存 ) . See also data-cache optimization; 
instruction-cache optimization (同时 参见 数据 高 
速 缓存 优化 ; 指令 高 速 缓存 优化 ) 
combined or unified cache (合并 的 或 统一 的 高 速 组 
存 ) ,670 
data-cache impact (数据 高 速 缓存 的 影响 ) , 670-671 
data-cache optimization (数据 高 速 缓存 优化 ) ，687- 
700 
effectiveness (效果 ) , 670 
instruction-cache impact (指令 高 速 缓存 的 影响 ) , 672 
instruction-cache optimization (指令 高 速 缓存 优化 ) ， 
672-682 
stride values ( 跨 步 值 ) , 670 
translation-lookaside buffer (TLB) (后 备 转换 缓冲 区 
(TLB)) , 670 
call (调用 ) 
LIR, 80 
MIR, 76 
call-by-name parameter passing ( 传 名 字 参 数 传递 ) , 118 
call-by-reference parameter passing ( 传 地 址 参数 传递 ) ， 
117-118 i 
call-by-result parameter passing ( 传 结 果 参 数 传递 ) , 117 
call by value ( 传 值 ) 
interprocedural alias analysis and (过 程 间 别名 分 析 ) ， 
654-656 
interprocedural optimization (过 程 间 优 化 ) , 656, 658 
parameter passing (参数 传递 ) , 117 
call-by-value-result parameter passing ( (AS BER 
传递 ) , 117 
call graphs (调用 图 ) . See also interprocedural control- 
flow analysis (同时 参见 过 程 间 控制 流 分 析 ) 
interprocedural control-flow analysis (过 程 间 控 制 流 分 
析 ) ,609-618 
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interprocedural data-flow analysis (过 程 问 数据 流 分 663 . 

Wr) .628-631 character representation supported (所 支持 的 字符 表 
procedure sorting (过 程 排序 ) , 673-674 示 ) , 106 


Callahan, David, 525, 530, 634, 637, 694 
callee-saved registers (被 调用 者 保护 的 寄存 器 ) , 120 
caller-saved registers (调用 者 保护 的 寄存 器 ) , 120 
canonical form for loops (循环 的 规范 形式 ) , 689 
canonical loop test. (规范 循环 的 测试 ) , 275 
canonicalization (规范 化 ) , 335-336 
capitalization, XBNF notation (大 写 ，XBNF 表 示 ) ,19 
Carr, Steve, 694 
carriage return character (%r), in ICAN (el 车 字符 (9%7)， 
ICAN 中 ) ,29 
case statements (ICAN) (case 语 句 (ICAN)) 
form (形式 ) , 39 
internal delimiters (内 部 分 界 符 ) , 25 
case studies (实例 分 析 ) , 705-745 
Alpha compiler ( Alpha 编 译 器 ) , 726-733 
example programs for ( 例 程序 ) ,705-707 
IBM XL compilers (IBM XL 编译 器 ) , 716-725 
Intel reference compilers for 386 family (Intel 386 系 列 
的 参考 编译 器 ) ,734-744 . 
SPARC compilers (SPARC 编 译 器 ) , 707-716 
case/switch schema (case/switch 图 解 ) , 203 
CDGs. See control-dependence graphs (CDGs, 参见 控制 
依赖 图 (CDGs)) 
chain loops, eliminating in Graham-Glanville code 
generator ( 链 循环 ，Graham-Glanville 代码 生成 
器 中 的 删除 ) , 152-154 
Chaitin, Gregory, 485,494, 498 
Chandra, Ashok, 804 
character, ICAN type (字符 ，ICAN 类 型 ) 
binary operators ( 二 元 运算 符 ) , 29 
delimiters (' ...) (分 界 符 ('...')) ,28,29 
escape sequences ( 转 义 序列 ) , 29 
overview (概述 ) , 29 
symbol-table entries (符号 表 项 ) , 46 
character string delimiters ("..."), in ICAN (字符 串 分 界 
TEC...", ICAN} ) , 32 
character strings, run-time representation (字符 串 ， 运 
时 表示 ) , 108-109 
characters, run-time representation (字符 ， 运 行 时 表 
示 ) , 106, 108-109 
Chow, Frederick, 473,524, 662 
CIL code (CIL 代 码 ) , 727-728 
circular scheduling ( 环 调度 ) , 565 
CISCS 
aggregation of global references (全 局 引用 的 聚合 ) ， 


van 


instruction decomposing (指令 分 解 ) , 602 
pipelining (i) , 531 
register assignment ( 寄 作 器 指派 ) , 482 
register usage (寄存 器 用 法 ) , 110 
class of induction variables (归纳 变量 的 类 ) , 428 
clique (集团 ) , 525 
clique separators (分 离子 团 ) , 525-526 
cloning, procedure ( 克隆， 过程 ) , 607-608, 657 
closed scopes ( 闭 作 用 域 ) , 52-54 
Cmelik, Robert, 770, 771 
coalescing registers (合并 寄存 器 ) . See register 
coalescing (参见 寄存 器 合并 ) 
Cocke, John, 449, 485, 804 
code generation (代码 生成 ) . See also automatic 
generation of code generators (同时 参见 代码 生 
成 器 的 自动 生成 ) 
Alpha compiler (Alpha 编 译 器 ) ,730 
assembly language vs. relocatable binary form (汇编 语 
言 与 可 重 定位 二 进 制 形 式 ) , 138 
described (描述 ) ,3 
Graham-Glanville code-generator generator ( Graham- 
Glanville 代 码 生 成 器 的 产生 器 ) , 140-144 
issues (问题 ) , 137-138 
code hoisting ( 代码 提升 ) , 417-420 
control-flow analysis and (控制 流 分 析 ) , 175 
example ( 例 ) ,418420 
implementation (实现 ) ,418-419 
order of optimizations 《优化 的 顺序 )，421 
overview (概述 ) ,377, 417, 420 
very busy expressions (非常 忙 表达 式 )，417 
code positioning in cache (高 速 缓存 中 代码 定位 ) . See 
instruction-cache optimization ( 间 时 参见 指令 高 


速 缓存 优化 ) 

code scheduling ( 代码 调度 ) . See instruction scheduling 
(参见 指令 调度 ) 

code sharing (代码 共享 ) . See shared objects (参见 共享 
对 象 ) 


code-generator generators ( 代码 生成 器 的 产生 器 ) . See 
automatic generation of code generators (参见 代 
码 生成 器 的 自动 生成 ) 

column-major order for arrays (数组 的 列 为 主 顺序 ) ， 
107 

combined or unified cache (合并 的 或 统一 的 高 速 缓存 ) ， 
670 

comment delimiter (ll) (注释 分 界 符 (1)) 
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in HIR, MIR, LIR (HIR、MIR 和 LIR 中 ) ,76 
in ICAN (ICAN 中 ) ,21 
comments (注释 ) 
ICAN, 21 
MIR, 76 
COMMON statement (Fortran 77), aliases and (COMMON 
语句 (Fortran 77), 314%) , 298-299 
common storage class (Fortran) (公用 存储 类 (Fortran), 
44 
common subexpressions (公共 子 表达 式 ) 
defined (定义 ) ,378 
if simplifications (if 化 篇 ) , 586 
common-subexpression elimination (ALTRAM 
BR) , 378-396 
combining with constant propagation ( 与 常数 传播 结 
合 ) ,394 
combining with copy propagation ( 与 复写 传播 结合 ) , 
394-395 
forward substitution (向 前 替代 ) , 395 
global (全 局 的 ) , 378, 385-395 
local (局 部 的 ) , 378, 379-385, 395 
order of optimizations (优化 的 顺序 ) , 421 
overview (概述 ) , 377, 378-379, 420 
reassociation with ( 重 结合 ) , 385, 415-416 
register use issues (寄存 器 使 用 问题 ) , 396 
repeating (重复 ) , 394-395 
value numbering vs. ({H 44-2) , 343 
commutativity, algebraic simplifications using (交换 率 ， 
代数 化 简 中 的 使 用 ) , 334 
compensation code, in trace scheduling (补偿 代码 ， 踪 迹 
WEF) , 569 
compilation process (编译 过 程 ) 
high-level intermediate languages in (高 级 中 间 语 言 ) ， 
69-70 
phases (阶段 ) , 2-3 
compilation, separate ( 编译 ， 分 开 的 ) . See separate 
compilation (参见 分 开 编 译 ) 
compile-time interprocedural register allocation (编译 时 
过 程 间 寄存 器 分 配 ) ，662 
compiler structure (编译 结构 ) 1-3 
optimizing compilers (优化 编译 器 )，7-11 
placement of optimizations (优化 的 安排 )，11-14 
compiler suites (编译 套件 )，9 
compiler-specific types (ICAN), overview (编译 专用 的 
类 型 (ICAN), 概述 )，24, 35 
compilers, defined (编译 器 ， 定 义 )，1-2 
composition operation (o), in lattices (复合 运算 符 (o)， 


格 中 ) , 235 


compound statements, in ICAN (复合 语句 ，ICAN 中 )， 
25 
computation nodes (计算 结 点 ) , 571 
concatenation operation, XBNF notation (连接 运算 ， 
XBNEF 表 示 )，19-20 
condition codes, dependency computation and ( 条件 代码 ， 
依赖 关系 计算 ) , 269 
conditional assignment operator( + (...)), in HIR, MIR, and 
LIR (条 件 赋值 运算 符 (~ (…))，HIR、MIR 和 
LIR) , 74,75 
conditional moves ( 条件 传 送 ) 
described (描述 ) , 580, 591 
order of optimizations (优化 的 顺序 ) , 604 
overview (概述 ) , 591-592 
congruence of variables (变量 的 重合 ) , 348-351 
co-NP-complete problems (co-NP 完 全 问题 ) , 634, 637 
conservative optimizations (保守 的 优化 ) , 319-320 
constant folding (常数 折 登 ) , 329-331 
algorithm (算法 ) , 330 
for floating-point values (用 于 浮 点 值 ) , 330-331 
increasing effectiveness (增加 效率 ) , 331 
order of optimizations (优化 的 顺序 ) , 331, 372 
overview (概述 ) , 329-330, 371 
constant propagation (常数 传播 ) . See also sparse 
conditional constant propagation (同时 参见 稀有 
条 件 常 数 传播 ) 
combining with common-subexpression elimination 
(与 公共 子 表达 式 删 除 结合 ) , 394 
induction-variable optimizations and (归纳 变量 优 
化 ) ,426 
interprocedural (过 程 间 的 ) , 637-641,656, 658 
overview (概述 ) , 362-363 
constant-expression evaluation (常数 表达 式 计算 ) . See 
constant folding (45% rtr de) 
constant-propagation analysis (常数 传播 分 析 ) . 230, 
261-262 
interprocedural (过 程 间 的 ) , 631-647, 656, 665-666 
constants (常数 ) 
global constant-propagation analysis (全 局 常数 传播 分 
析 ) ,230 
HIR, MIR, and LIR integer constants (HIR、MIR 和 
LIR 整 常数 ) ,76 —— 
for jump and return-jump functions (关于 转移 和 返回 
转移 函数 ) , 640 | 
interprocedural constant-propagation analysis (过 程 间 
常数 传播 分 析 ) , 631-641,656, 665-666 
constants (常数 ) (ICAN) 
array types (数组 类 型 ) , 30, 33 
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function types〈 国 数 类 型 ) , 34 
record types (记录 类 型 ) , 33 
sequence types (序列 类 型 ) , 32, 33 
set types (集合 类 型 ) ,31 
syntax of generic simple types (普通 简单 类 型 的 语 
法 ) ,28 
tuple types (元 组 类 型 ), 33 
constrained Diophantine equations (约束 的 丢 番 图 方 
程 ) ,280 
constraint matrix test (约束 矩阵 测试 ) , 284 
constructed types (构造 的 类 型 ) (ICAN), 28 
array types (数组 类 型 ), 30, 33 
function types (RAW) , 34 
record types (记录 类 型 ) , 33 
sequence types (序列 类 型 ) , 32, 33 
set types (集合 类 型 ) , 31 
tuple types (元 组 类 型 ) , 33 
control dependence (控制 依赖 ) 
defined (定义 ) , 267-268 
dependence graphs and (依赖 图 ) , 268-269 
operator (5) (运算 符 (6)) , 267-268 
control trees (控制 树 ) , 198, 199 
control-tree based data-flow analysis (基于 控制 树 的 数 
据 流 分 析 ) , 235-236 
control-dependence graphs(CDGs) (控制 依赖 图 ) , 284- 
286 
control-dependent nodes of PDGs (PDG 的 控制 结 点 ) , 
284,286 E 
control-flow analysis (控制 流 分 析 ) , 169-216. See also 
flowgraphs and interprocedural control-flow 
analysis ( 同时 参见 流 图 和 过 程 间 控制 流 分 析 ) 
Alpha compilers (Alpha 编译 器 ) , 726 
basic-block identification (基本 块 标识 ) , 173-174 
branch node (分 支 结 点 ) , 175 
breadth-first search (宽度 为 主 搜索 ) , 181 
depth-first search (深度 为 主 搜索 ) , 178-179, 180 
dominance tree( 必 经 结 点 树 ) , 171-172 
dominator-based approaches (基于 必 经 结 点 的 方法 ) ， 
173 ` 
dominators ( 必 经 结 点 ) , 171-172, 181-191 
flowgraph construction (WE) , 174-177 
Intel compilers (Intel 编 译 器 ) , 738 
interprocedural ( 过程 间 的 ) , 609-618 
interval analysis and control trees (区 间 分 析 和 控制 
树 ) , 197-202 
interval-based approaches (基于 区 间 的 方法 ) , 173 
join node (汇合 结 点 ) , 175 
natural loops (正常 循环 ) , 191-193 
postorder traversal (后 序 遍 历 ) , 180, 181 
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POWER and PowerPC compilers (POWER 和 PowerPC 
编译 跨 ) ,721 
predecessors of a node ( 结 点 的 前 驱 ) , 175 
preorder traversal (前 序 遍 历 ) , 179-181 
reducibility ( 归 约 性 ) , 196-197 
simple example (简单 的 例子 ) , 169-172 
SPARC compilers (SPARC 编 译 器 ) , 710 
strongly connected components ( 强 连 通 分 量 ) , 193- 
196 
structural analysis (结构 分 析 ) , 202-214 
successors of a node ( 结 点 的 后 继 ) , 175 
usefulness of (有 效 性 ) , 169-170 
control-flow and low-level optimizations (控制 流 和 低级 
优化 ) , 579-605 
branch optimizations (分 支 优化 ) , 580, 589-590 
branch prediction ( 3c Wil) , 580, 597-599, 603 
conditional moves (条 件 传送 ) , 580, 591-592 
dead-code elimination {( 死 代码 和 删除) , 580, 592-597, 
602-603 
described (描述 ) , 322, 579 
if simplifications (if 化 简 ) , 580, 585-586 
loop inversion ( &9 48 W.) , 580, 587-588 
loop simplifications (循环 化 简 ) , 580, 586-587 
machine idioms and instruction combining (机 器 方言 
和 指令 归并 ) , 580, 599-602 
postpass or peephole optimizations (FNRA 4L Dt 
化 ) , 579, 603-604 
straightening ({# H(t), 579, 583-585 
tail merging or cross jumping ( 尾 融合 或 交叉 转移 ) ， 
580, 590-591 
unreachable-code elimination (不 可 到 达 代 码 删 除 ) ， 
579, 580-582 
unswitching (无 开关 化 ) , 580, 588-589 
control-flow path, defined (控制 流 路 径 ， 定 义 ) , 218 
control-tree-based data-flow analysis (基于 控制 树 的 数据 
流 分 析 ) ,236-251 — 
Cooper, Keith D., 355, 414, 443, 469, 620, 637, 642, 664 
copy propagation (复写 传播 ) , 356-362 
combining with common-subexpression elimination 
(与 公共 子 表达 式 删除 结合 ) , 394-395 
described (描述 ) , 356 
global (全 局 的 ) , 358-362 
local (局 部 的 ) , 356-358,361 
order of optimizations (优化 的 顺序 ) , 372 
overview (概述 ) , 356, 371 
register coalescing (寄存 器 合并 ) , 487, 497-501 
copy-propagation analysis (复写 传播 分 析 ) , 230 
Coutant, Deborah, 309 
Cray Fortran extensions (Cray Fortran 扩 充 ) , 299, 305, 
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708 
critical edges (关键 边 ) ; 407, 408,474 
cross-block scheduling ( 跨 基 本 块 调度 ) , 546-547 
described (描述 ) , 531 
order of optimizations (优化 的 顺序 ) , 574-575 
performance and (性 能 ) , 573 
cross edge, in depth-first presentation of flowgraph (横向 
边 ， 流 图 的 深度 为 主 表示 中 ) 
defined (4E Y.) , 178 
label (C) (标号 (C)) , 178 
cross jumping (交叉 转移 ) . See tail merging (参见 尾 融 
4) 
cyclic control structures (有 环 控制 结构 ) 
backward structural data-flow analysis (向 后 结构 数据 
HA) , 245-246 
forward structural data-flow analysis ( 向 前 结构 数据 流 
分 析 ) ,240 
structural control-flow analysis (结构 控制 流 分 析 ) ， 
202-204, 207-208 


D 
D-cache optimization (D-cache 优 化 ) . See data-cache 
optimization (参见 数据 高 速 缓存 优化 ) 
DAGs. See Directed Acyclic Graphs (DAGs) (参见 无 环 
有 向 图 ) UC 
data dependence (数据 依赖 ) , 268-269 
data prefetching (数据 预 取 ) , 688,698-700 
order of optimizations (优化 的 顺序 ) , 702-703 
data structure representation (数据 结构 的 表示 ) , 757- 
functions ( 函数 ) ,764-765 
linked-list vs. bit-vector (链表 与 位 向 量 ) , 757-759 
sequences (序列 ) , 763 
sets (#4) , 759-763 
trees and DAGs ( BERIDAG) , 763-764 
data structures in structural control-flow analysis (结构 控 
制 流 分 析 中 的 数据 结构 ) , 205 
data types (WEA) . See also type definitions(ICAN) 
(同时 参见 ICAN 中 的 类 型 定义 ) 
arrays (ICAN) (数组 (ICAN)) , 30 
compiler-specific types (ICAN) (编译 专用 的 类 型 
(ICAN)) , 24, 35 
constructed types (ICAN) (构造 的 类 型 (ICAN)) , 28 
enumerated types (ICAN) ( 枚 举 类 型 (ICAN)) , 29- 
30 
floating-point numbers (7? 3%) , 81 
functions (ICAN) (函数 (ICAN)) , 34-35 
generic simple types (ICAN) (普通 简单 类 型 


(ICAN)), 23, 28-29 

integers (整数 ) , 81 

nil value for (关于 nil 值 ) , 24, 35 

records (ICAN) (记录 类 型 (ICAN)) , 33-34 

registers (寄存 器 ) , 82 

run-time representation (运行 时 的 表示 ) , 106-109 

sequences (ICAN) (序列 (ICAN)) , 32-33 

sets (ICAN) (集合 (ICAN)) , 31-32 

size operator (Il) (大 小 运算 符 (ID) , 36 

for symbol-table attributes (用 于 符号 表 的 属性 ) , 46 

syntax of ICAN definitions (ICAN 定 义 的 语法 ) , 25- 
26 

tuples (ICAN) (元 组 (ICAN)) , 33 

unions (ICAN) (联合 (ICAN)) , 34 

variables (变量 ) , 81 

data-cache optimization (数据 高 速 缓存 优化 ) ，687-700. 

See also memory-hierarchy optimizations (同时 
参见 存储 层次 优化 ) 

data prefetching (数据 预 取 ) , 688,698-700 

data-cache impact (数据 高 速 缓存 的 影响 ) , 670-671 

interprocedural arrangement of data (过 程 间 的 数据 安 
HE) , 689 

locality and tiling (局 部 性 与 铺 砌 ) , 695-698 — 

loop transformations (循环 转换 ) , 689-695 

matrix multiplication and (ERE), 671. 

optimizer structure and (优化 器 的 结构 ) , 10-11 

order of optimizations (优化 的 顺序 ) , 701,702 

overview (概述 ) , 687-689, 701 

scalar vs. memory-oriented optimizations (标量 与 面向 
存储 器 的 优化 ) , 700 

data-flow analysis (数据 流 分 析 ) . 217-266. See also 

interprocedural data-flow analysis (同时 参见 过 
程 间 数据 流 分 析 ) 

Alpha compiler (Alpha 编 译 器 ) ,729 

approaches to solving problems ( 解 问 题 的 方法 ) ， 
230-231 

arrays, structures and pointers 〈 数 组 、 结 构 和 指针 ) ， 
258-259 . 

automating data-flow analyzer construction (数据 流 分 
析 器 构造 自动 化 ) , 259-261 

available expressions analysis (可 用 表达 式 分 析 ) ， 
229 X 

backward (向 后 ) , 229, 244-247 

bidirectional (双向 ) , 229 

conservatism in 《保守 性 ) ,217 

constant-propagation analysis (常数 传播 分 析 ) . 230, 
261-262 ; 

control-flow path (控制 流 路 径 ) , 218 





592 





control-tree based (基于 控制 树 的 ) , 235-236 
copy-propagation analysis (复写 传播 分 析 ) , 230 
du-chains (du 链 ) , 251 
factorial computation example (阶乘 计算 的 例子 ) ， 
261-262 
fixed points (不 动 点 ) , 226-227. 
flow functions ( 流 函 数 ) ,226-227 
for global copy propagation (关于 全 局 复写 传播 ) ， 
358-360 
forward (向 前 ) , 229, 236-244 
in induction-variable optimizations ( 归纳 变量 优化 
中 ) ,428 
independent attributes ( 属性 无 关 ) , 229 
Intel compilers (Intel 编 译 器 ) , 738 
interprocedural (过 程 间 的 ) , 619-637 
interprocedural data-flow information and (过 程 间 数 
据 流 信息 ) , 658 
interval analysis (区 间 分 析 ) , 249-250 
iterative analysis (迭代 分 析 ) , 231-235 
lattices ( 格 ) , 223-226 
lattices of flow functions ( 流 国 数 的 格 ) , 235-236 
live variables analysis ( 活跃 变量 分 析 ) , 229 
overview (概述 ) ,217-218 
partial-redundancy analysis (MBA 7 4x4) BT) , 230 
POWER and PowerPC compilers (POWER 和 PowerPC 
编译 跨 ) , 722 
program verification，connection to (程序 证 明 ， 关 
KE) , 261-262 
purpose (HAJ) , 217 
reaching definitions analysis (到 达 定 值 分 析 ) , 218- 
223,229 
slotwise analysis. (3X4 Br) , 250-251 
SPARC compilers (SPARC 编 译 器 ) , 710 
SSA form (SSA 形 式 ) , 252-258 
structural analysis (结构 分 析 ) , 236-249 
taxonomy of problems and solution methods (问题 和 
求解 方法 的 分 类 ) ，228-231 
for type determination and dependence analysis (用 于 
类 型 判定 和 依赖 分 析 ) , 262-263 
ud-chains (ud 链 ) ,251 
upwards exposed uses analysis (向 上 暴 规 使 用 分 析 ) ， 
229-230 
webs (网 ) ,251-252 
dead instructions (死去 的 指令 ) , 592 
dead variables (死去 的 变量 ) , 445, 592-593 
dead-code elimination 〈 死 代码 删除 ), 592-597 
algorithm (算法 ) , 592-593, 596 
described (描述 ) , 580,592 © 
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determining dead code (确定 死 代 码 ) , 592-593 
ICAN code (ICAN 代 码 ) , 593-594 
importance of (重要 性 ) , 602-603 
order of optimizations (优化 的 顺序 ) , 327, 603-604 
repetition of (重复 ) , 13-14, 579, 603 
unreachable-code elimination vs. (不 可 到 达 代 码 删 
PR) , 580 
debugging, intermediate-code output (〈 调试， 中间 代码 输 
出 ) ,69 
DEC GEM compilers (DEC GEM 编 译 器 ) . See Alpha 
compilers (参见 Alpha 编译 器 ) 
DEC VAX, ASCII support (DEC VAX, ASCII 支 持 ) , 
106 
declarations (ICAN) (声明 (ICAN)) . See also type 
definitions(ICAN) (同时 参见 类 型 定义 
(ICAN)) 
procedure declarations (过 程 声 明 ) , 23, 24, 27 
syntax (语法 ) , 26-27 
variable declarations (变量 声明 ) , 23, 26-27 
dedicated registers ( 专用 的 寄存 器 ) , 120 
defined to be operator (定义 运算 符 ) 
=, in machine grammars (一 ， 机 器 文法 中 ) , 140 
>, in XBNF notation ( > ，XBNEF 表 示 中 ) , 19 
degree, in register allocation by graph coloring (E, 
着 色 寄 存 器 分 配 中 ) , 494 
degree < R rule ( Æ< R 规 则 ) , 488, 503-506 
delay slots, filling (ERW, I) , 532, 534-535 
delayed expressions in partial-redundancy analysis (部 分 
元 余 分 析 中 的 延迟 的 表达 式 ) , 411-412 
delete-node transformation (删除 结 点 转换 ) , 571-572 
delimiters (分 界 符 ) 
between statements (ICAN) (语句 之 间 的 (ICAN)) , 
21 
of compound statements (ICAN) (复合 语句 的 
(ICAN)) ,25 
Delta test (Delta 测 试 ) , 284 
dependence, defined (依赖 关系 ， 定 义 ) , 267 
dependence analysis (依赖 关系 分 析 ) , 267-291 
Alpha compilers (Alpha 编译 路) , 729 
basic-block dependence DAGs (基本 块 依赖 DAG) , 
269-274 
data-flow analysis for (数据 流 分 析 的 ) , 262-263 
dependence relations (依赖 关系 ) , 267-269 
dependence testing (依赖 关系 测试 ) , 279-284 
dependences between dynamically allocated objects 
(动态 分 配对 象 之 间 的 依赖 关系 ) , 286-288 
dependences in loops (循环 中 的 依赖 关系 ) , 274-279 
in high-level intermediate languages (高 级 中 间 语 言 
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中 ) ,71 
Intel compilers (Intel 编 译 器 ) , 738 
POWER and PowerPC compilers (POWER 和 PowerPC 
编译 器 ) ,721 
program-dependence graphs (PDGs) (程序 依赖 图 
(PDG)) , 284-286 
SPARC compilers (SPARC 编 译 器 ) ,711 
dependence DAGs (依赖 DAG) , 269-274 
algorithm (算法 ) , 273-274 
constructing (构造 ) , 271-274 
edges in (322) , 269 
for LIR code (LIR 代 码 的 ) , 270-271 
list scheduling (列表 调度 ) , 535,537-543 
nodes in (££) ) , 269 
resource vectors (资源 向 量 ) , 271 
structural hazards (结构 停顿 ) , 271 
for window scheduling (用 于 窗口 调度 ) , 551-552, 
554, 555 
dependence graphs (依赖 图 ) 
described (描述 ) , 268-269 
program-dependence graphs (PDGs) (程序 依赖 图 
(PDG)) , 284-286 
dependence relations (依赖 关系 ) , 267-269 
antidependence (0) (1k #i(*)), 268 
- control dependence (F) (控制 依赖 (5) ) 267-268 
data dependence (数据 依赖 ) , 268 
flow or true dependence (的 〈 流 或 真 依赖 (00) ) 268 
input dependence (6) (输入 依赖 (0)), 268 
loop-carried ( 循环 携带 的 ) , 278 
loop-independent 《循环 无 关 的 ) , 278 
notation (表示 法 ) , 267-268,276 
output dependence (&) (输出 依赖 (00) ) , 268 
write-live dependence (6*!) ( 写 - 活 跃 依赖 (6"')) ,571 
dependence testing (依赖 测试 ) , 279-284 
constrained Diophantine equations (约束 的 丢 番 图 方 
程 ) , 280 
GCD (greatest common divisor) (GCD (最 大 公 因 
子 )) 281-283 
integer programming ( 整数 规划 ) , 280 
other tests (其 他 测试 ) , 283-284 
separable array references (可 分 的 数组 引用 ) , 282 
weakly separable array references ( 弱 可 分 的 数组 引 
用 ) ,282 
dependence vector (依赖 向 量 ) 
defined (定义 ) ,278 
delimiters (<...>) (分 界 符 <...>) ,277, 278 
distance vector, set of (距离 向 量 ， 集 合 ) , 278 
dependent induction variables (依赖 归纳 变量 ) , 426- 
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427, 429 
depth-first number (深度 为 卡 编号 ) , 178 
depth-first presentation (深度 为 让 表示 ) , 178 
depth-first search (深度 为 主 搜索 ) , 178-179, 180 
computing dominators (计算 必 经 结 点 ) , 187 
interprocedural data-flow analysis (过 程 闻 数 据 流 分 
Wr) , 632 
depth-first spanning tree (深度 为 主 生成 树 ) , 178 
computing (计算 ) , 180 
in structural control-flow analysis .( 在 结构 控制 流 分 析 
中 ) ,204 
tree edges ( 树 边 ) , 178 
derives operator (35), in machine grammars (推导 运算 
符 ， 机 器 文法 中 ) , 147 
Deutsch, Alain, 133,287, 290 
Dhamdhere, Dhananjay M., 250, 407 
Directed Acyclic Graphs (DAGs) (有 向 无 环 图 
(DAG)) , 100-101 
basic-block dependence DAGs (基本 块 依赖 DAG) , 
269-274 
representation (表示 ) , 764, 765 


:direction vector (方向 向 量 ) 


defined (定义 ) , 277-278 
delimiters (<...>) (分 界 符 (<...>))，277-278 
distance vector (距离 向 量 ) 
defined (定义 ) ,277 
delimiters (<...>) (分 界 符 (<...>))，278 
lexicographically positive (词典 序 为 正 的 )，690-691 
distance vector set (距离 向 量 集合 )，278 
distributive lattices (分 配 格 ) , 224, 236 
division operator (/) (除法 运算 符 (/)) 
in HIR, MIR, and LIR (HIR. MIR 和 LIR 中 ) , 74 
in ICAN (ICAN 中 )，27, 29 
does not divide operator ( / ) (不 能 整除 运算 符 ) , 281 
dominance frontiers ( 必 经 边界 ) , 253-256 
computing for flowgraphs ( 流 图 的 计算 ) , 254-256 
iterated (迭代 的 ) , 254-256 
dominance tree ( 必 经 结 点 树 ) 
global value numbering for (全 局 值 编号 ) , 355 
-identifying loops (标识 循环 ) , 171-172 
dominators ( 必 经 结 点 ) , 181-191 
algorithms (算法 ) , 182, 186-187 : 
computing using Dom, Comp () (使 用 pom_comp () 
1 计算 ) ,182-184 
computing using Domin Fast (使 用 Domin_Fast 
计算 ) , 185-191 
disadvantages of (缺点 ) , 173 
immediate dominators (直接 必 经 结 点 ) , 183-184, 
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189-191 
label evaluation computation 〈 标 号 评估 计算 ) , 188 
linking computation ( 链 按 计算 ) , 188 : 
overview (概述 ) , 181-182 
path-compression computation (路 径 压缩 计算 ) , 187 
postdominators (后 必 经 结 点 ) , 182 
semidominators ( 半 必 经 结 点 ) , 185 
simple example ( 简单 的 例子 ) , 171-172 
strict dominators ( 必 经 结 点 ) , 182 
double-precision floating-point number, ends with D, in 
HIR, MIR, and LIR ( 双 精 度 浮 点 数 ， 以 D 结 束 ， 
HIR、MIR 和 LIR 中 ) ,74 
double-precision matrix multiplication ( 双 精 度 矩 阵 乘 ) ， 
671 
du-chains (du 链 ) , 251,486. See also webs (同时 参见 
网 ) 
determining dead code ( 确定 死 代 码 ) , 593 
in SSA form (SSA 形 式 中 ) , 252 
dynamic’ branch-prediction methods (动态 分 支 预测 方 
ik) , 597-598 f 
dynamic extent ( 动态 作用 域 ) , 45 
dynamic languages, run-time support (动态 语言 ， 运 行 时 
支持 ) , 131-133 
dynamic link (动态 链 ) . See also shared objects (同时 
参见 共享 对 象 ) 
: described (描述 ) , 110-111, 114 
global offset table (GOT) (全 局 偏 移 表 (GOT) ) 129, 
130 
procedure linkage table (PLT) (过 程 连接 表 (PLT)) ， 
130, 131 
semantics of (语义 ) , 127-128 
transferring control between shared objects (在 共享 对 
象 之 间 转 换 控 制 ) , 129-130 
transferring control within shared objects (在 共享 对 象 
内 转换 控制 ) , 128-129 
dynamic linker, run-time (动态 连接 ， 运 行 时 ) , 127-128 
dynamic programming (动态 规划 ) , 160-165 
algorithms (算法 ) , 163-165 
described (描述 ) , 160 
optimality. principle (最 优 性 原理 ) , 160 
pattern-matching process (模式 匹配 过 程 ) , 160-164 
tree-matching automaton ( 树 匹 配 自动 机 ) , 163, 164 
tree-rewriting rules ( 树 重 写 规则 ) , 160-162 
uniform-register-machine assumption (统一 的 寄存 器 
机 器 的 假设 ) , 163-165 
dynamic scoping (动态 作用 域 ) , 45 
dynamically allocated objects, dependences between ( 动 


态 分 配 的 对 象 ， 之 间 的 依赖 ) , 286-288 
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dynamically allocated storage, alias gatherer and (动态 分 
配 的 存储 单元 ， 和 别名 搜集 ) , 302 


E 


earliestness of expressions in partial-redundancy analysis 
(部 分 元 余 删 除 中 的 最 早 性 ) , 411 
early optimizations (前 期 优化 ) , 329-375 
algebraic simplifications and reassociation (代数 化 简 
和 重 结合 ) 333-343 
constant folding (常数 折 登 ) ,329-331 
constant-expression evaluation (常数 表达 式 计算 ) ， 
329-331 
copy propagation (复写 传播 ) , 356-362 
described (描述 ) , 321 
scalar replacement of aggregates (聚合 量 标 量 替代 ) ， 
331-333 
sparse conditional constant propagation (稀有 条 件 常 
数 传播 ) , 362-371 
value numbering〈 值 编号 ) , 343-355 
EBCDIC, IBM System/370 support (BBCDIC, IBM 
System/370 3 Fg) , 106 
Ebcioflu Kemal, 548 
edge in directed graph (......) (有 向 图 中 的 边 (.… 
>...) ,175 


edge splitting, of critical edges ( 边 分 割 ， 关 键 边 的 ) ， 


407, 474, 509 . 
effective height, of a lattice ( 有 效 高 度 ， 格 的 ) ,226 
efficiency (效率 ) . See also performance (同时 参见 性 

能 ) 

one-pass compilers and (一 遍 编 译 器 ) ,3,6 
run-time support and (运行 时 支持 ) , 4-6 
Eggers, Susan J., 526, 545 
EIL code (EIL 代 码 ) , 727, 728 
elimination methods (消去 法 ) 
control-tree based data-flow analysis (基于 控制 树 的 数 
据 流 分 析 ) , 235-236 
interval control-flow analysis (区 间 控 制 流 分 析 )， 
173, 197-202 
empty sequences, in ICAN ( 空 序列 ，ICAN 中 ) 
defined (定义 ) ,24 
value ([]) (48 (1). , 24, 27, 32 
empty sets, in ICAN ( 空 集合 ，ICAN 中 ) 
defined (定义 ) , 24 
value (ø) ( 值 (9)) , 24, 27, 31 
empty string ( € ), in grammars ( 空 字 符 串 (上 )， 文 法 

中 ) , 19, 140 

enum, enumerated type constructor, in ICAN (enum, 枚 


举 类 型 构造 符 ，ICAN 中 ) , 23 
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enumerated type delimiters ({...}), in ICAN ( 枚 举 类 型 分 
界 符 ({...})，ICAN 中 ) , 23, 26, 29 
enumerated types, run-time representation ( 枚 举 类 型 ， 
运行 时 的 表示 ) , 107 
enumerated types (ICAN) ( 枚 举 类 型 (ICAN )) 
binary operators (二 元 运算 符 ) , 30 
overview (概述 ) , 29-30 
symbol-table entries (符号 表 项 ) , 46 
epilogue of procedures (过程 的 出 只 处 理 ) , 120 
shrink wrapping and (收缩 包装 ) , 472, 473 
equal to operator (=) ( 相等 运算 符 (=)) 
in HIR, MIR, and LIR (HIR, MIR 和 LIR 中 ) ,74 
in ICAN (ICAN 中 ) , 27, 28, 29, 30 
EQUIVALENCE statement (Fortran 77), aliases and 
(EQUIVALENCE 语 名 (Fortran 77), 314) , 
298-299 
escape sequences for character values (字符 值 的 转 义 序 
pj) , 29 
essential value or instruction (必要 的 值 或 指令 ) , 592 
examples in this book, target machines (本 书 中 的 例子 ， 
目标 机 器 ) , 16 
exception handling, in interprocedural side-effect analysis 
(异常 处 理 , 过 程 间 副作用 分 析 中 ) , 637 
existentia! quantifier ( 3), in ICAN (存在 量词 ( 3). 
ICANH:) , 27, 28 
exit blocks of a loop (循环 的 出 口 基 本 块 ) , 403 
exponent delimiter (E) (指数 分 界 符 (E) ) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) ,74 
in ICAN (ICAN 中 ) , 28, 29 
exponentiation operator ( t ), in ICAN (iA Tf, ICAN 
中 ) ,27, 29 
expressions (表达 式 ) 
algebraic simplification and reassociation of addressing 
expressions (地 址 表达 式 的 代数 化 简 和 重 结 
合 ) ,334-341 
algebraic simplification of floating-point expressions 
( 浮 点 表达 式 的 代数 化 简 ) , 342-343 
available expressions analysis (可 用 表达 式 分 析 ) ， 
229 
common-subexpression elimination (公共 子 表达 式 删 
除 ) , 378-396 
delayed (延迟 的 ) , 411-412 
earliestness (最 早 性 ) ., 411 
globally anticipatable values (全 局 可 预见 值 ) , 410- 
411 
.HIR, 79 
isolated (孤立 的 ) , 413 
latestness ( JSiR EE) , 412-4 13 


LIR, 80 
locally anticipatable values 〈 局 部 可 预见 值 ) ,410 
MIR, 84-85 i 
very busy expressions (非常 忙 表达 式 ) , 417 
expressions (ICAN) (表达 式 (ICAN)) 
Boolean-valued (具有 布尔 值 的 ) , 28 
nil value in (nil 值 ) ,35 
overview (概述 ) , 23, 28 
syntax (语法 ) , 27 | 
Extended Backus-Naur Form (XBNF) (扩展 的 巴 科斯 - 
诺尔 范式 (XBNF)) , 19-20 
syntax of HIR instructions (HIR 指 令 的 语法 ) , 78-79 
syntax of LIR instructions (LIR 指 令 的 语法 ) ,79-81 
syntax of MIR instructions (MIR 指 令 的 语法 ) , 73-75 
syntax of MIR programs and program units (MIR 程 序 
和 程序 单位 的 语法 ) , 74 
extended basic blocks (扩展 基本 块 ) , 175-177 
` local copy propagation for ( 局 部 复写 传播 ) ,361 
register renaming on (寄存 器 重 命名 ) , 565 
extended formal parameters (扩展 的 形式 参数 ) , 643 
extended GCD test (扩展 的 GCD 测 试 ) , 283 
extent of variables (变量 的 作用 域 ) , 44 
dynamic extent (动态 作用 域 ) , 45 
extern storage class ( 外 部 存储 类 ) , 44 


F 


factorial computation, data-flow analysis example (阶乘 
计算 ， 数据 流 分 析 的 例子 ) . 261-262 

Farnum, Charles, 342 

field indirection operator (*.), in HIR, MIR, and LIR (J& 
间接 运算 符 (*.)，HIR、MIR 和 LIR 中 ) , 74 


-field selection operator (.)( 域 选择 运算 符 (.)) 


in HIR, MIR, and LIR (HIR, MIR 和 LIR 中 ) ,74,79 
in ICAN (ICAN 中 ) 27, 34 
file storage class (文件 存储 类 ) , 44 
finite differences, method of (有 限 差分 ,方法 ) , 435 
Fischer, Charles N., 159, 160 
fixed points (不 动 点 ) , 226-227 
maximum (MFP) (最 大 不 动 点 ) ,227 
floating-point expressions, algebraic simplification (FFA 
表达 式 ， 代 数 化 简 ) , 342-343 
floating-point registers, ICAN representation ( 浮 点 寄存 
器 ，ICAN 表 示 ) , 82 
floating-point values ( 浮 点 值 ) 
constant folding for (常数 折叠 相关 的 ) , 330-331 
data-cache optimization and (数据 高 速 缓存 优化 ) ， 
688-689 
in ICAN (ICAN 中 ) ,81 
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in HIR, LIR, and MIR (HR、LIR 和 MIR 中 ) , 76 
parameter-passing in registers (用 寄存 器 传递 参数 ) ， 
121 
run-time representation (运行 时 的 表示 ) , 106-107 
flow dependence ( 流 依赖 ) 
defined (定义 ) , 268 
in dependence graphs 〈 依 赖 图 ) , 268 
operator (8°) (JEFFS )) , 268 
flow functions ( E ERA) 
alias propagator ( 别名 传播 器 ) , 308 
backward structural data-flow analysis (向 后 结构 数据 
流 分 析 ) , 244 
fixed point. (不 动 点 ) , 226 
forward structural data-flow analysis (向 前 结构 数据 流 
分 析 ) , 237-239 
lattices of monotone (单调 格 ) , 235-236 
overview (概述 ) , 226-227 
flow sensitivity ( 流 敏感 性 ) 
alias information (别名 信息 ) , 294-296, 315 
flow-insensitive interprocedural alias analysis ( 流 不 敏 
感 过 程 间 别名 分 析 ) , 642-654 
flow-insensitive interprocedural side-effect analysis 
( 流 不 敏感 过 程 间 副作用 分 析 ) , 619-633 
flow-sensitive interprocedural alias analysis ( 流 敏感 过 
程 间 别名 分 析 ) , 642 
flow-sensitive side-effect analysis( 流 敏感 副作用 分 
Hi) , 634-636 
global optimization and (全 局 优化 ) , 323 
interprocedural optimization and (过 程 间 优化 ) , 608- 
609, 664 
` optimizations (优化 ) , 323 
flow-insensitive interprocedural alias analysis ( 流 不 敏感 
过 程 间 别 名 分 析 ) , 642-654 
binding graph construction (结合 图 构造 ) ， 643,645 


combining alias information with alias-free version ( 别 — 


名 信息 与 免除 别名 的 版 本 结合 ) , 651, 654 

computing formal-parameter aliases (计算 形式 参数 的 
AZ) , 650-651,653 f 

example program ( 例 程序 ) , 643, 644 

extended formal parameter set (扩展 和 的 形式 参数 集 
合 ) , 643 

inverting nonlocal alias function (i fsldE 9 RRIA ER 
数 )， 646-647, 648 l 

marking algorithm (标志 算法 ) , 650, 652-653 . 

nonlocal aliases ( 非 局 部 别名 ) , 643-644, 646-648 

pair binding graph construction (成 对 结合 图 构造 ) ， 
649-650 ‘ 

steps in computing (it FMAM) , 643 
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flow-insensitive side-effect analysis ( E US BUTE FAS 


Br) , 619-633 
binding graph construction (结合 图 构造 ) , 623-627 
call graph construction (调用 图 构造 ) , 628-631 
depth-first search (ARB HERR) , 632 
strongly connected components ( 强 连通 分 量 ) , 631- 
632 


flow insensitivity ( 流 不 敏感 性 ) . See flow sensitivity 


(参见 流 敏感 性 ) 


flow-sensitive interprocedural alias analysis( 流 敏感 过 程 


闻 别 名 分 析 ) , 642 


flow-sensitive side-effect analysis (WERE ERIH) ， 


634-636 


flowgraphs (W) . See also control-flow analysis (4 


， 参 见 控制 流 分 析 ) 

abstract (抽象 ) , 198 

constant propagation and (常数 传播 ) , 363 

construction (构造 ) , 174-177 

dominance frontier computation ( 必 经 边界 计算 ) ， 
254, 255 

dominator tree for (关于 必 经 结 点 树 的 ) , 257 

extended basic blocks (扩展 基本 块 ) , 175-177 

intraprocedural code positioning (过 程 内 代码 安置 ) ， 
681 

iterated dominance frontier computation (和 迭代 的 必 经 
边界 计算 ) , 254, 256 

predecessor basic blocks (前 驱 基 本 块 ) , 175 

reducibility (可 归 约 性 ) , 196-197 

for register allocation by graph coloring (关于 图 着 色 
寄存 器 分 配 的 ) , 512, 513,518, 521, 522 

reverse extended basic blocks (逆转 的 扩展 基本 块 ) ， 
175 

successor basic blocks (后 继 基本 块 ) , 175 

translating to SSA form (转换 到 SSA 形 式 ) , 256-257, 
349-350 


fonts, XBNF notation (字体 ，XBNF 表 示 ) , 19 
for statements (forj&4J) 


HIR, 78-79 
ICAN, 39 
iterators in ICAN (tif, ICANH) , 39-40 


Fortran 


aliased variables and (有 别名 的 变量 ) , 641 

aliases in Fortran 77 (Fortran 77 中 的 别名 ) , 298-299 

aliases in Fortran 90 (Fortran 90 中 的 别名 ) , 301-302, 
305 

arrays, column-major order (数组 ， 列 为 主 顺 序 ) , 107 

call by reference in 〔〈 传 地 址 ) , 118 

call by value-result in( 传 值得 结果 ) , 117 
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common storage class ( 公用 存储 类 ) ,44 
Cray extensions for Fortran 77 (Fortran 77 的 Cray 扩 
$E) , 299, 305, 708 | 
enumerated value representation ( 枚 举 值 的 表示 ) ， 
107 
Fortran H compiler (Fortran H 编 译 器 ) , 484, 528 
labels as arguments (标号 作为 实 参 ) , 118-119 
lexical and syntactic analysis in (词法 和 语 半 分 析 】 ,3 
preprocessor for (关于 预 处 理 ) , 10 
reducibility in Fortran 77 (Fortran 77 中 的 可 归 约 性 ) ， 
196-197 
forward data-flow analysis (向 前 数据 流 分 析 ) 
defined (定义 ) ,218 
iterative (迭代 的 ) , 231-234 
iterative forward bit-vector (迭代 的 向 前 位 向 量 ) , 
218-223 
structural (结构 的 ) , 236-244 
forward edges, in depth-first presentation of flowgraph 
(前 向 边 ， 流 图 的 深度 为 主 表示 中 ) 
defined (zz X.) , 178 
label (F) (标号 (F)) , 178 
forward substitution (向 前 替代 ) , 396 
Fourier-Motzkin test (Fourier-Motzkin 测 试 ) , 284 
frame pointer (BidH4}) (fp), 112-114 
alloca ( ) and, 113 
described (描述 ) , 110, 112 
stack pointer vs，( 栈 指针 ) , 112-113 
tail-call elimination and ( 尾 调 用 删除 ) , 462 
frames (Hi) . See stack frames ( 见 栈 帧 ) 
Fraser, Christopher, 273,768, 769 
Free Software Foundation (自由 软件 基金 会 ) ， 768 "n 
Freiburghouse, Richard A., 483, 528 
function composition (c) ( 函数 复合 (0)) , 235 
function types, in ICAN (函数 类 型 ，ICAN 中 ) 
constants (常数 ) , 34 
constructor (^) (构造 符 ( 一 )) , 23, 26, 28, 34 
overview (概述 ) , 34-35 
functions, representation ( 国 数 ， 表 示 ) ,764-765 
fundamental induction variables (基本 归纳 变量 ) , 426, 
427 
future trends in compiler design (编译 器 设计 中 的 未 来 趋 
势 ) ,744 
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Ganapathi, Mahadevan, 159, 160, 608,664 

Gao, G. R., 817 

GCD (greatest common divisor) dependence test (GCD 
(最 大 公 因 子 ) 依赖 测试 ) , 281-283 


GEM compilers ( GEM 编译 器 ) 
(参见 Alpha 编译 器 ) 
generating code (生成 代码 ) 
of code generators; code generation (参见 代码 生 
成 器 的 自动 生成 ， 代 码 生 成 ) 
generation scavenging (阶段 清除 ) , 133 
generic simple constants (ICAN), syntax (普通 简单 常数 
(ICAN), W) , 28 
generic simple types (IGAN) (普通 简单 类 型 (ICAN)) 
list of ( 表 ) , 23, 28 
overview (概述 ) , 28-29 
Geschke, Charles M., 820 
global common-subexpression elimination (全 局 公共 子 
表达 式 删 除 ) , 385-395 
algorithms (算法 ) , 388-390, 391-394 
available expressions (可 用 表达 式 ) , 385-387, 390 
combining with local form (与 局 部 形式 结合 ) , 394 
control-flow analysis and (控制 流 分 析 ) , 175 
dealing with individual expression occurrences (处 理 
单独 的 表达 式 的 出 现 ) 390-394 
local vs.( 局 部 的 ) ,378 
repeating (重复 ) , 394-395 
using AEin() data-flow function .( 使 用 AEin( ) 数据 
流 函 数 ) , 388-390 


. See Alpha compilers 


. See automatic generation 


global copy propagation (全 局 复写 传播 ) , 358-362 


data-flow analysis for (数据 流 分 析 ) , 358-360 
data-flow equations (数据 流 方 程 ) , 359-360 
local copy propagation and ( 局 部 复写 传播 ) , 361 
performing (实现 ) , 360-361 
some copy assignments not detected ( 某 些 复写 赋值 设 
有 被 删除 ) , 362 
global data structures in structural control-flow analysis 
(结构 控制 流 分 析 中 的 全 局 数据 结构 ) , 205 
global offset table (GOT) (全 局 偏 移 表 (GOT)) , 129 
130 2 
global offset table pointer (gp) (全 局 偏 移 表 指针 (gp)) 
described (描述 ) , 111 
used (使 用 ) , 129, 663 
global storage classes (全 局 存储 类 ) , 44 
global symbol-table structure (全 局 符号 表 结构 ) , 49-54 
closed scopes ( 闭 作 用 域 ) , 52-54 
stack-plus-hashing model ( 栈 加 散 列 模式 ) , 52-54 
symbol-table stacks (符号 表 栈 ) ,49, 51 
tree of local symbol tables ( 局 部 符号 表 树 ) , 49, 50 
global value numbering (全 局 值 编号 ) , 348-355 
congruence of variables ("5 BLU) der) , 348-351 
extending to dominator trees (扩充 到 必 经 结 点 树 ) , 
355 
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generalizations to approach (方法 的 推广 ) , 355 
local value numbering and (局 部 值 编 号 ) , 344 
partitioning algorithm ( 划分 算法 ) , 351-355 
translating flowgraphs into SSA form (转换 流 图 到 
SSA 形 式 ) , 349-350 
value graphs ( 值 图 ) , 349-351 
globally anticipatable values (全 局 可 预见 值 ) ,410-411 
GNU compilers (GNU 编 译 器 ) , 768 
Goldberg, David, 331 
Goldin, Dina Q., 803 
Goldstine, Herman H., 459 
Golumbic, Martin C., 548, 803 
Goodman, James R., 740 
GOT. See global offset table (GOT) (参见 全 局 偏 移 表 ) 
goto statements (goto 语 句 ) 
ICAN form (ICAN 形 式 ) ,38 
labels as arguments (标号 作为 实 参 ) , 118 
MIR, 75-76 
Graham, Susan L., vii-ix, 52, 139-158 
Graham-Glanville code-generator ( Graham-Glanville & fl 
生成 器 ) 
generator (生成 器 ) , 139-158 
Action/Next table issues (Action/Next 表 的 问题 ) , 158 
algorithm (算法 ) , 142-143 
chain loop elimination ( 链 循环 删除 ) , 152-154 
code generator ( 代码 生成 器 ) , 140-144 
code-generation algorithm (代码 生成 算法 ) , 142-143 
code-generator generator (代码 生成 器 的 生成 跨 ) ， 
144-151 
components (部 分 ) , 139 
-example for LIR instructions (LIR 指 令 的 例子 ) , 139- 
140, 141 
machine-description rules (机 器 描述 规则 ) , 140-142 
overview (概述 ) , 139-140 
Polish-prefix input to code generator (代码 生成 器 的 前 
缀 波兰 输入 ) , 139-158,764 
syntactic block elimination ( 句法 阻 滞 删 除 ) , 154-158 
granularity of aliasing information ( 别名 信息 的 粒度 ) . 
297, 315 
graph coloring (图 着 色 ) . See register allocation by 
graph coloring (参见 图 着 色 寄 存 器 分 配 ) 
greater than operator (>) (大 于 运算 符 (>)) . 
in HIR, MIR, and LIR (HIR, MIR 和 LIR 中 ) ,74, 75 
in ICAN (ICAN 中 ) , 27, 29 
greater than or equal to operator (大 于 或 等 于 运算 符 ) 
>=, in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) , 
74, 75 
> in ICAN (ICAN 中 ) 27, 29 
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greatest common divisor (GCD) dependence test (最 大 公 
因子 (GCD) 依赖 关系 测试 )) , 281-283 

greedy algorithms ( RIER?) , 141,544 

greedy schedule, unconstrained ( AAE, TARHI), 
555-556 

Gross, Thomas, 542, 543 

group I optimizations (第 一 组 优化 ) , 323-324 

group II optimizations (第 二 组 优化 ) , 324 

group III optimizations (第 三 组 优化 ) , 324-325 

group IV optimizations 〈 第 四 组 优化 ) , 325 

grouping operator ((...)), in XBNF notation (成 组 运算 符 
((...D, XBNFRARH) , 19 

Groves, Randy, 807 

Gupta, Anoop, 699 

Gupta, Rajiv, 525, 689 
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Hall, Mary W., 469,664, 806 

Hanson, David, 768, 769 - 

hashing (#7) 

function representation (函数 表示 ) , 764, 765 

local common-subexpression elimination (局 部 公共 子 
表达 式 删 除 ) , 384-385 

local symbol-table management (局 部 符号 表 管 理 ) ， 
48-49 

set representation (集合 表示 ) , 761-762 

stack-plus-hashing model ( 栈 加 散 列 模式 ) , 52-54 

height of a lattice ( 格 的 高 度 ) ,226 

Hendren, Laurie J., 262, 287, 290 

Hennessy, John, 259, 260, 524, 542, 543, 662 . 

Henry, Robert, 158,526, 769 

heuristics for register spilling (寄存 器 溢出 启发 式 ) . See 
register allocation by graph coloring (参见 图 着 
色 寄 存 器 分 配 ) 

Hewlett-Packard PA-RISC compiler (Hewlett-Packard 
PA-RISC 编 译 器 ) . See PA-RISC compiler (参见 
PA-RISC 编 译 器 )， 

hexadecimal notation (十 六 进 制 表示 ) , 17 

hexadecimal number, begins with Ox, in HIR, MIR, and 
LIR (十 六 进 制 数 ， 以 Ox 打头 ，HIR、 MIR fil 
LIR 中 ) ,74, 76 

hierarchical reduction (层次 归 约 ) , 568-569 

order of optimizations. ( 优化 的 顺序 ) 574-575 

high-level data-flow analysis (高 级 数据 流 分 析 ) , 202 

high-level intermediate languages (高 级 中 间 语 言 ) ,69- 
71. See also HIR 

abstract syntax tree (同时 参见 HIR 抽 象 语法 树 ) , 70- 
71 
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in compilation process (编译 过 程 中 ) , 69-70 
dependence analysis in (依赖 分 析 ) ,71 
order of optimizations (优化 的 顺序 》 , 325-326- 
in preprocessors ( 预 处 理 器 中 ) , 69-70 
High-level Intermediate Representation (高 级 中 间 表 
ZR) .See HIR (参见 HIR) 
Hilfinger, Paul, 525 
HIR, 78-79. See also intermediate code (同时 参见 中 间 代 
83) 
canonical form for loops ( 循环 的 规范 形式 ) ,274 
definition of (定义 ) ,78-79 
described (描述 ) ,4 
differences from MIR ( 与 MIR 的 不 同 ) , 78-79 
ICAN representation (ICAN 表 示 ) , 81-82, 85-86 
instructions (指令 ) , 78-79 
loop code (循环 代码 ) ,5 
operators in IROper (IROper 中 的 操作 ) , 82 
Hobbs, Steven O., 820 
Hood, Robert T., 637 
Hopcroft, John, 351 
Hopkins, Martin, 494 
HP PA-RISC compiler (HP PA-RISC 编 译 器 ) . See PA- 
RISC compiler (参见 PA-RISC 编 译 器 ) 
Hummel, Joseph, 287 


I-cache optimization (I-cache 优 化 ) . See instruction- 
cache optimization (参见 指令 高 速 缓存 优 化 ) 
IBM 801 RISC system (IBM 801 RISC 系 统 ) , 485, 718 
IBM PL/1 compiler (IBM PL/1 编 译 器 ) , 528 
IBM System/370 compiler (IBM System/370 编 译 器 ) ， 
106, 484, 528, 531,575 
IBM XL compilers (IBM XL 编 译 器 ) . See POWER and 
PowerPC compilers 
IBURG, 769-770 
ICAN. See Informal Compiler Algorithm Notation (ICAN) 
(参见 非 形式 编译 算法 表示 法 (ICAN)) 
ICP lattices (ICP 格 ) See integer constant-propagation 
(ICP)lattices (参见 整数 传播 (ICP) 格 ) 
identifiers, MIR (标识 符 ，MIR) , 76 
identity function, (id()) ( 恒 等 国 数 ，(idaO)) ,233 
if simplifications (if 化 简 ) , 585-586 
common subexpressions (公共 子 表达 式 ) , 586 
constant-valued conditions ( 值 为 常数 的 条 件 ) , 585- 
586 
described (#438) , 580, 585 
for empty arms (23002) €) , 585 
if statements (ifi& 4g) 
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code representations for structural data-flow analysis 
(结构 数据 流 分 析 的 代码 表示 ) , 247-248 
flow functions for structural data-flow analysis (结构 
数据 流 分 析 的 流 函 数 ) , 237-238, 244-245 
HIR, 78 
ICAN, 38-39 
MIR, 75-76 
IL-1 code (Intel compilers) (IL-1 代 码 ，Intel 编 译 器 ) , 
736, 737 
IL-2 code (Intel compilers) (IL-2 代 码 ，Intel 编 译 器 ) ， 
736-738 
immediate dominators (直接 必 有 经 结 点 ) , 183-184, 189- 
191 
implicit resources, dependency computation and ( 隐 含 资 
源 ， 依 赖 关 系 计 算 ) , 269 
improper intervals or regions ( 非 正常 区 间或 区 域 ) , 196, 
203,240-241 
in-line expansion (ARS HR) , 470-472 
advantages (好 处 ) , 470-471 
mechanisms required (需要 的 机 制 ) , 471-472 
order of optimizations ( 优化 的 顺序 ) 477-478 
summary 〈 概 要 ) , 476 
independent-attributive data-flow analysis ( 属性 无 关 数 
HRD) , 229 l 
index vectors (索引 向 量 ) , lexicographic ordering of 
(词典 序 ) ,275 
induction variables ( 归纳 变量 ) 
basic or fundamental (基本 的 或 基础 的 ) , 426, 427 
basis (基本 的 ) , 428 
class of (类 ) ,428 
dependent (依赖 ) , 426-427, 429 
identifying (标识 ) , 426-435 
induction-variable expansion (归纳 变量 扩张 ) , 562- 
563 
overview (概述 ) , 425-426 
removal of (删除 ) , 447-453 
replacing (linear-function test replacement) (SE, & 
性 函数 测试 替换 ) , 447, 448-453 
strength reduction (强度 削弱) , 435-443, 444 
induction-variable optimizations ( 归纳 变量 优化 ) 425- 
453 ` 
addressing modes and ( 寻 址 方式 ) , 426 
constant propagation and (常数 传播 ) , 426 
data-flow analysis in (数据 流 分 析 ) , 428 
identifying induction variables (识别 归纳 变量 ) , 426- 
435 
linear-function test replacement (线性 函数 测试 替 
换 ) , 447, 448-453 
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live variables analysis (活跃 变量 分 析 ) , 443-446 
order of optimizations 《优化 的 顺序 ) , 458 
removal of induction variables (基本 归纳 删除 ) , 447- 
453 
strength reduction (强度 削弱 ) , 435-443, 444 
summary (概要 ) , 458 
infinite loop (无 限 循环 ) . See nonterminating 
computation (参见 不 终止 的 计算 ) 
infinite value (), in ICAN (无 穷 值 ，ICAN 中 ) , 24, 
28, 29 
Informal Compiler Algorithm Notation (ICAN) ( 非 形式 
编译 算法 表示 (ICAN)) , 19-42 
comments in (注释 ) , 21 
constants of constructed types (构造 类 型 的 常数 ) , 24 
constructors (构造 符 ) , 23 
data types (数据 类 型 ) , 27-36 
expressions (表达 式 ) , 23, 27, 28 
Extended Backus-Naur Form (XBNF) (扩展 的 巴 科 斯 
一 诺尔 范式 ) , 19-20 
generic simple constants (一 般 简单 常数 ) , 28 
generic simple types (一 般 简单 类 型 ) , 23, 28-29 
HIR representation in (HIR 表 示 ) , 81-82, 85-86 
intermediate-code operators (中 间 代 码 运算 符 ) , 82 
keywords, reserved in (XF, 保留 的 ) , 40 
lexical conventions (词法 约定 ) , 21-22 
LIR representation in (LIR 表 示 ) , 81-82, 86-92 
MIR representation in (MIR 表 示 ) , 81-85 
naming of data structures and routines (数据 结构 和 例 
程 的 命名 ) , 92-95 
overview (概述) , 23-25 
procedure declarations (过 程 说 明 ) , 23, 24, 26-27 
program syntax (语法 ) , 25 
statements (1&4) , 36-40 
syntax conventions (语法 约定 ) , 21 
type definitions (类 型 定义 ) , 23, 24, 25-26, 27-36 
variable declarations (变量 说 明 ) , 23, 26-27 
inlining (PURE) . See in-line expansion (RARP FE) 
inlining (AK) , automatic. See procedure integration 
(参见 过 程 集成 ) 
input dependence (输入 依赖 ) 
defined (定义 ) , 268 
operator (8) (运算 符 (5)) , 268 
inside-out order ( 由 内 向 外 顺序 ) , 609 
instruction buffer (指令 缓冲 区 ) , 672 - 
instruction-cache optimization (指令 高 速 缓存 优化 ) ， 
672-682 
combining intra- and interprocedural methods (结合 过 


程 内 和 过 程 间 的 方法 ) . 682 


instruction prefetching (指令 预 取 ) , 672-673 
instruction-cache impact (指令 高 速 缓存 的 影响 ) , 672 
intraprocedural code positioning (过 程 内 代码 安置 ) ， 
677-681 
order of optimizations (优化 的 顺序 ) , 702-703 
overview (概述 ) , 701 
procedure and block placement. (过 程 和 基本 块 放 置 ) ， 
676-677 
procedure sorting (过 程 排序 ) , 673-676 
procedure splitting (过 程 分 割 ) , 681-682 
instruction combining (指令 归并 ) . See machine idioms 
and instruction combining (参见 机 器 方言 和 指令 
归并 ) 
instruction decomposing (指令 分 解 ) , 602 
instruction prefetching (指令 预 取 ) 
branch prediction and (分 支 预测 ) , 673 
hardware prefetching (硬件 预 取 ) , 672 
order of optimizations (优化 的 顺序 ) , 702-703 
software prefetching (软件 预 取 ) , 672-673 
instruction scheduling (指令 调度 ) , 531-577 
algorithm (算法 ) , 540-541 
automating instruction- scheduler generation. (指令 调 
度 生成 器 自动 化 ) , 543 
balanced scheduling (平衡 式 调度 ) , 545 
basic-block scheduling (基本 块 调度 ) , 531 
branch scheduling (分 支 调度 ) , 533-535, 536 
combining with register allocation (与 寄存 器 分 配 结 
合 ) , 526 
cross-block scheduling ( 跨 基 本 块 调度 ) , 531, 546- 
547 
DEC GEM compilers (DEC GEM 编 译 器 ) ,729, 730 ` 
described (描述 ) , 322 
Intel 386 family compilers (Intel 386 系 列 编译 器 ) , 
739, 740 
list scheduling ( 表 调 度 ) , 535, 537-543 
loop unrolling (循环 展开 ) , 532 
order of optimizations (优化 的 顺序 ) , 532, 574-575 
overview (概述 ) ,531-532 
percolation scheduling (渗透 调度 ) , 532, 571-573 
POWER and PowerPC compilers (POWER 和 PowerPC 
编译 器 ) , 723 
register allocation and (寄存 器 分 配 ) ,545 
register renaming (寄存 器 重 命 名 ) ,532 
repetition of (重复 ) , 14 
software pipelining ( 软 流 水 ) . 531,532, 548-569 
SPARC compilers (SPARC 编 译 器 ) ,713 
speculative loading and boosting (前 瞻 取 和 上 推 )， 
547-548 
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speculative scheduling (前瞻 调 度 ) , 548 
for superscalar implementations (实现 ) , 543-545 
trace scheduling (踪迹 调度 ) , 532, 569-570 
variable expansion (变量 扩张 ) , 532 
instruction-scheduler generation, automating (指令 调度 
生成 路 ， 自 动 化 ) , 543 
integer constant-propagation (ICP) lattices ( 整 常数 传播 
(ICP) f&) , 224-225,228 
integer ICAN type ( 整 型 ICAN 类 型 ) 
binary operators ( 二 元 运算 符 ) , 29 
overview (概述 ) , 29 
integer programming (整数 规划 ) , 280 
integer registers (整数 寄存 器 ) 
ICAN representation (ICAN 表 示 ) , 82 
parameter-passing in (参数 传递 ) , 121-123 
integers (整数 ) 
ICAN representation (ICAN 表 示 ) , 81 
run-time representation (运行 时 的 表示 ) , 106 
Intel reference compilers for 386 family (Intel 用 于 386 系 
列 的 参考 编译 器 ) ,735-744 l 
assembly language (汇编 语言 ) , 752-753 
code generator (Proton) (代码 生成 (Proton)) , 735, 
738-739 
code reselection (代码 重新 选择 ) , 740 
data-dependence testing (数据 依赖 测试 ) , 738 
data-flow analysis (数据 流 分 析 ) , 738 
fxch instruction (fxch 指 令 ) , 740 
global optimizer (全 局 优化 ) ,738 
IL-1 code (IL-1 代 码 ) , 736, 737 
IL-2 code (IL-2 代 码 ) , 736-738 
instruction combining (指令 归并 ) , 739-740 
instruction scheduling (指令 调度 ) , 740 
instruction selection (指令 选择 ) , 739-740 
Intel 386 family architecture (Intel 386 系 列 体系 结 
MJ) , 734-735 
interprocedural optimizer (过 程 间 优化 ) , 736-737 
languages supported (所 支持 的 语言 ) , 735 
low-level optimizations (低级 优化 ) , 740-741 
memory optimizer (存储 优化 ) ,738 
Pentium assembly code examples (Pentium 汇 编 代 码 的 
例子 ) , 741-744 
position-independent code (位 置 无 关 代码 ) , 741 
Proton intermediate language (PIL) (Proton 中 间 语 言 
(PIL)) , 738-739 
register allocation (寄存 器 分 配 ) , 740 
sparse conditional constant propagation (稀有 条 件 常 
数 传播 ) ,738 
structure (结构 ) , 735-736 


interference graphs (冲突 图 ) , 494-497 


adjacency-list representation ( 邻接 表 表 示 ) , 487, 496- 
497, 498,499 


- adjacency-matrix representation ( 邻接 矩阵 表示 ) , 


487, 495-496, 497 
degree < R rule ( 度 <R 规 则 ) , 503-506 
described (描述 ) , 481,485 
examples ( 例 ) , 486, 503,513-516, 519-522 
overview (概述 ) , 494-495 
pruning (修剪 ) , 488,503-506 
reducing register pressure (减少 寄存 器 压力 ) , 506 
register pressure (寄存 器 压力 ) , 506 


spilling symbolic registers (溢出 符号 寄存 器 ) , 488, 
506-511 ` 


interferences, defined (冲突 ， zz X.) , 481 
interlocks ( 互 锁 ) , 532-533 
intermediate code (中 间 代 码 ) . See also HIR; LIR; 


MIR; SSA form (参见 HIR; LIR; MIR; SSA 
形式 ) 

algorithms operating on ( 其 上 运算 的 算法 ) , 4 

code-generation approach and (代码 生成 方法 ) , 138 

debugging output (调试 输出 ) , 69 

Directed Acyclic Graphs (DAG) (有 效 无 环 图 ) ，100- 
101 

external representation issues ( 外 部 表示 的 问题 ) , 69 

high-level intermediate languages (高 级 中 间 语 言 ) ， 
69-71 

HIR, 78-79, 85-86 

ICAN naming of data structures and routines (数据 结 
构 和 例 程 的 ICAN 命 名 ) , 92-95 

ICAN representation of MIR, HIR, and LIR (MIR, 
HIR 和 LIR 的 ICAN 表 示 ) , 81-92 

LIR, 79-81, 86-92 

low-level intermediate languages (低级 中 间 语 言 ) ， 
71-72 

medium-level intermediate languages (中 级 中 间 语 
言 ) ,71 

MIR, 73-78, 82-85 

multi-level intermediate languages (多 级 中 间 语 言 ) ， 
72-73 

new intermediate code design vs. existing one (新 的 中 
间 代 码 涉 及 与 现存 的 中 间 代 码 设计 ) , 67-69 

optimization and (优化 ) , 67-68 

Polish-prefix notation (前 级 波兰 表示 ) , 101 

program-dependence graphs (PDGs) (程序 依赖 图 ) ， 
284-286 ] 

quadruples (四 元 式 ) , 96 

translating between forms (各 种 形式 之 间 的 转换 ) ， 
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68-69 

trees (Ht) , 97-100. 

triples (三 元 式 ) , 96-97 

variety in design (设计 中 的 变化 ) ,4 

Internet software resources (互联 网 软件 资源 ) ,767 

interprocedural alias analysis (过 程 间 别 名 分 析 ) , 641- 
656 

example ( 例 ) , 642 

flow-insensitive ( 流 不 敏感 ) , 642-654 

flow-sensitive ( 流 敏感 ) , 642 

for languages with call by value and pointers 〈 传 值 和 
传 指 针 语 言 ) 654-656 

overview (概述 ) , 641-642 

interprocedural analysis and optimization (过 程 间 分 析 和 
RAL) , 607-668 

aggregation of global references (全 局 引用 的 聚合 ) ， 
663 

alias analysis (别名 分 析 ) , 641-656 

constant propagation (常数 传播 ) , 637-641 

control-flow analysis (控制 流 分 析 ) , 609-618 

data-flow analysis (数据 流 分 析 ) , 619-637 

flow insensitivity and ( 流 不 敏感 性 ) , 608-609 

flow sensitivity and ( 流 敏感 性 ) ; 608-609 

in-line expansion (ARKH HR) , 470-472 

may and must information and ( 可 能 和 一 定 信息 ) ， 
608-609 

optimizations (优化 ) , 656-659 

order of optimizations (优化 的 顺序 ) , 665-666 

overview (概述 ) , 607-609 

parameter-passing and (参数 传递 ) , 608 

performance and (性 能 ) , 608 

procedure cloning (过 程 克隆 ) , 607-608, 657 

procedure integration (过 程 集成 ) , 465-470 

“programming in the large”issues (大 规模 程序 设计 
中 的 问题 ) , 663-664 

register allocation (寄存 器 分 配 ) , 659-662 

separate compilation and (分 开 编 译 ) , 608 

tail-call elimination ( 尾 调用 删除 ) , 461-465 

interprocedural constant propagation (过 程 间 常 数 传 
播 ) , 637-641, 665-666 

algorithm (算法 ) ,637-639 

choices for jump and return-jump functions (转移 和 返 
回转 移 函 数 的 选择 ) , 640-641 

importance of (重要 性 ) , 664 

jump functions (转移 函数 ) , 637 

order of optimizations (优化 的 顺序 ) , 665-666 

procedure cloning and (过 程 克 隆 ) , 641 

return-jump functions (返回 转移 函数 ) , 637 
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site-independent form (位 置 无 关 形 式 ) , 637 
site-specific form (位 置 特殊 形式 ) , 637 
support of a function ( 函数 的 支持 ) , 637 


interprocedural constants, for jump and return-jump . 


functions (过 程 间 参数 ， 关 于 转移 和 返回 转移 函 
数 ) , 640 


interprocedural control-flow analysis (控制 流 分 析 ) ， 


609-618 

ICAN code for call graph construction (调用 图 构造 ) , 
609-611 

inside-out order (出 内 向 外 顺序 ) , 609 

invocation order (调用 顺序 ) , 609 

outside-in order ( 由 外 向 内 顺序 ) , 609 

with procedure-valued variables (有 过 程 值 变量 的 ) , 
612-618 

reverse invocation order 〈 逆 调用 顺序 ) , 609 

separate compilation and (分 开 编 译 ) , 611 

types of actions for procedure-valued variables (过 程 


值 变量 的 动作 类 型 ) , 615-616 


interprocedural data-cache usage (过 程 间 数 据 高 速 缓 存 


使 用 ) , 689 


interprocedural data-flow analysis (数据 流 分 析 ) , 619- 


637 

binding graph construction (结合 图 构造 ) , 623-627 

call graph construction (调用 图 构造 ) , 628-631 

depth-first search (深度 为 主 搜索 ) , 632 

flow-insensitive side-effect analysis ( 流 不 敏感 副作用 
分 析 ) , 619-633 

flow-sensitive side-effect analysis ( 流 敏感 副作用 分 
析 ) , 634-636 = 

other issues in computing side effects (计算 副作用 中 
的 其 他 问题 ), 637 

overview (HER) ,619 

program summary graph (程序 概要 图 ) , 634-636 

program supergraph (程序 超 图 ) , 634 

strongly connected components 〈 强 连通 分 量 ) , 631- 
632 


interprocedural register allocation (过 程 间 寄存 器 分 配 ) ， 


659-662 
annotations (注释 ) , 660-661 
compile-time (编译 时 ) , 662 
importance of ( 重要 性 ) , 664 


- issues requiring special handling (需要 特殊 处 理 的 问 


题 ) , 661-662 
link-time (连接 时 ) , 659-662 
order of optimizations ( 优化 的 顺序 ) , 665-666 


interval control-flow analysis (区 间 控 制 流 分 析 ) ，197- 


202. See also structural control-flow analysis ( 同 
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时 参见 结构 控制 流 分 析 ) 
advantages (好 处 ) , 173 
basic steps (AAR) , 200-202 
control trees (控制 树 ) , 198, 199 
minimal vs. maximal intervals ( 极 小 与 极 大 区 间 )， 
199,200 
overview (概述 ) , 173 
structural analysis compared to (结构 分 析 比 较 ) , 202 
interval data-flow analysis (区 间 数 据 流 分 析 ) , 249-250 
in POWER and PowerPC compilers (POWER 和 
PowerPC 编 译 器 ) ,722 
reaching definitions example (和 到达- 定 值 的 例子 ) ， 
249-250 
structural analysis compared to (结构 分 析 比 较 ) , 249 
intraprocedural code positioning (过 程 内 代码 安置 ) ， 
677-681 
algorithm (算法 ) , 678-681 
order of optimizations (优化 的 顺序 ) , 678 
overview (概述 ) , 677-678 
procedure splitting and (过 程 分 割 ) , 681 
intraprocedural optimizations (过 程 内 优化 ) , 607 
invocation order (iBHNIHE) , 609 
Irlam, Gordon, 768 
irreducibility (不 可 归 约 性 ) 
approaches to (方法 ) , 197 
prevalence of (流行 ) , 196-197 
See also improper intervals (同时 参见 非 正常 区 间 ) 
isolated expressions (孤立 的 表达 式 ) , 413 
iterated dominance frontiers ( 迹 代 的 必 经 边界 计算 ) ， 
254-256 
iteration space (和 迭代 空间 ) , 275 
iteration-space traversal (迭代 空间 遍历 ) , 275,276, 277 
iterative, defined (4t, zE X.) ,218 


iterative data-flow analysis (迭代 的 数据 流 分 析 ) ， 231- 


235 
for backward problems (向 后 问题 ) , 235 
iterative forward bit-vector problem (3k C h9 t Bil lia) 
Bi) , 218-223 
worklist algorithm (工作 表 算 法 ) , 232-233 
iterative forward bit-vector problem 〈 迭 代 的 向 前 位 向 量 
问题 ) , 218-223 
iterators, for statements (ICAN) (RIF, forig 
(ICAN)) , 39-40 


J 


Java, run-time support (Java， 运 行 时 支持 ) , 131-133 
Johnson, Steven C., 165 
Johnsson, Richard K., 820 
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join node (汇合 结 点 ) , 175 

join operation, for .lattices (汇合 操作 ， 关 于 格 的 ) , 223, 
. 225 ` - 

Jones, Neil D., 225,262, 287, 290, 306 

Joy, William N., 52 

jump functions (转移 函数 ) , 637-641 


K 


Kam, J. B., 227 
Kennedy, Ken, 449, 620, 637, 642, 664, 694 
Keppel, David, 771 
Kerns, Daniel R., 545 
keywords (ICAN) (关键 字 (ICAN)) 
list of (3€) , 40 
reserved words (保留 字 ) ,25, 40 
Kildall, Gary A., 227, 259 
killing definitions ( 杀 死 定 值 ) , 220 
Kim, Ki-Chang, 807 
Kleene closure, unary postfix operator (*), applied to 
functions, defined ( 克 林 闲 包 ， 一 元 前 缀 运算 符 
(*) 作用 于 函数 ， 定 义 ) , 235,248 
Knobe, Kathleen, 525, 530 
Knoop, Jens, 407, 443,597 
Koblenz, Brian, 525, 530 
Krawczyk, Hugo, 803 
Kuck, David J., 637 


L 


. labels, passing as arguments 《标号 ， 作为 实 参 传递 ) ， 


: 118-119 
label separator O (标号 分 割 符 ) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) , 74, 75, 
79, 80 
in ICAN (ICAN 中 ) , 37 
label variables, in interprocedural side-effect analysis ( 标 
号 变量 ， 过 程 间 副作用 分 析 ) , 637 
Lam, Monica, 289, 568, 690, 698, 699, 738,769 
Larus, James, 525,598, 767 
last-write trees ( Sir Set) , 259 
latestness of expressions, in partial-redundancy analysis 
(表达 式 的 最 迟 性 ， 在 部 分 元 余 删 除 中 ) , 412- 
413 
lattices ( 格 ) 
of bit vectors (BV”) (位 向 量 (BV")) , 224, 226 
bottom value (1) 〈 底 值 ) , 223 
bottom value (1), in ICAN ( 底 值 (上 )，ICAN 中 ) , 
225, 364 
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distributive {分配 的 ) ,224 — — 
greater than operator ( 3) (大 于 运算 符 ( 3) ,225 
greater than or equal to operator ( 2) (大 于 或 等 于 运 
XT) , 225 
height (高 度 ) , 226 
integer constant-propagation (ICP) lattice ( 整 常数 传播 
(ICP) 格 ) , 224-225, 228 
join operator ( U ) (并 运算 符 ) , 223 
less than operator ( C ) (小 于 运算 符 ) , 225 
less than operator (© ), in ICAN (小 于 运算 符 ，ICAN 
中 ) ,639 
less than or equal to operator (C ) (小 于 或 等 于 运算 符 
(E )) ,225 
meet operator ( 门 )( 交 运算 符 ) , 223,225 
meet operator ( M ), in ICAN ( 交 运 算 符 ，ICAN 中 ) , 
232, 367, 639 
monotone (单调 的 ) , 226 
overview (概述 ) , 223-226 l 
partial order on ( 偏 序 ) , 225 
product of lattices ( 格 的 乘积 ) , 224 
product operator (x) (乘积 运算 符 ) , 224 
strongly distributive ( 强 可 分 配 的 ) , 236 
top value (『 ) ( 顶 值 ) , 223 
top value ( T ), in ICAN ( 顶 值 ，ICAN 中 ) , 225,232, 
364 
lattices of monotone flow functions 【单调 流 函 数 的 格 ) ， 
235-236 
composition operator (©) (复合 运算 符 ) , 225 
effective height (有 效 高 度 ) , 226 
fixed points (FAA) , 226-227 
identity function (id) (Eg) , 235 
Kleene closure operator, unary postfix (*) ( 克 林 闭 包 运 
算 符 ， 一 元 后 缀 (*)) , 235,248 
nonempty closure operator, unary postfix (+) ( 非 空 闭 
DEAT., AFR (+)) ,235 
lazy code motion ( 懒 情 代码 移动 ), 407 
lec, 768 
leaf routine, defined (MAR, X) ,472 
leaf-routine optimization ( 叶 例 程 优 化 ) , 472-473. See 
also shrink wrapping (同时 参见 收缩 包装 ) 
applicability 《实用 性 ) , 472-473 
order of optimizations (优化 的 顺序 ) , 477-478 
overview (概述 ) , 477 
Lee, Peter H., 131,132 
Lengauer, Thomas, 185, 738 
less than operator (<) (小 于 运算 符 (<)) 
in LIR, MIR, and HIR (LIR、 MIR 和 HIR 中 ) ,74. 
in ICAN (ICAN 中 ) , 27, 29 
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less than or equal to operator (<=) (小 于 或 等 于 运算 符 
(«2)) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) , 74 
in ICAN (ICAN 中 ) 27, 29 
Lewis, Harry R., 348,729 
lexical analysis (词法 分 析 ) 
combining with syntactic analysis (与 语法 分 析 结 合 ) ， 
3 
described (描述 ) ,2 
for Fortran (关于 Fortran) ,3 
lexicographically less than operator ( < ) (词典 序 小 于 运 
算 符 (< )) 275 
lexicographically less than or equal to operator ( ) (ia 
JT SF ie AF )) . 276 
lexicographically positive distance vector (词典 序 为 正 的 
距离 向 量 ) , 690-691 
Li, Kai, 548 
libraries (J£) 
interprocedural issues (过 程 闻 问题 ) , 664 
shared (Jt 3x89) , 127-131 
Lichtenstein, W., 817 
lifetimes of variables (变量 的 生命 期 ) , 44 
linear-function test replacement ( 线性 函数 测试 替换 ) ， 
447, 448-453 
described (描述 ) ,447 
ICAN code (ICAN 代 码 ) , 450-453 
procedure (过 程 ) , 448-450 
link-time interprocedural register allocation (连接 时 过 程 
间 寄 存 器 分 配 ) , 659-662 
linked-list representation bit-vector representation vs. (位 
向 量 表 示 的 链表 表示 ) , 757-759 
of sequences (序列 的 ) , 763 
of sets (集合 的 ) , 760 
Linpack 
procedure integration and (过 程 集成 ) , 465-466 
propagating information (传播 信息 ) , 657 
LIR, 79-81. See also Graham-Glanville code-generator 
generator; intermediate code (参见 Graham- 
Glanville 代 码 生 成 器 的 产生 器 ; 中 间 代 码 ) 
array representation (数组 表示 ) , 68-69 
assignments (赋值 ) , 80 
definition of {定义 ) , 79-81 
dependence DAGs (依赖 DAG) , 270 
described (描述 ) ,4 
differences from MIR (与 MIR 的 不 同 ) , 79-81, 492- 
494 
Graham-Glanville code-generator generator (Graham- 


Glanville 代 码 生 成 器 的 产生 器 ) , 139, 140 
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ICAN representation (ICAN 表 示 ) , 81-82, 86-92 
instructions as ICAN tuples (指令 作为 ICAN 元 组 ) , 
91-92 
loop code (循环 代码 ) ,5 
memory addresses (存储 器 地 址 ) , 91 
operators in IROper (IROper 中 的 运算 符 ) , 82 
tail-call optimization ( 尾 调用 优化 ) , 463 
LISP 
compile-time interprocedural register allocation (编译 
时 过 程 间 寄 存 器 分 配 ) , 662 
dynamic scoping (动态 作用 域 ) , 45 
register allocator (寄存 器 分 配器 ) , 525 
run-time support (运行 时 支持 ) ,131-133 
list scheduling ( 表 调 度 ) , 535, 537-543 
algorithm (iX) , 540-541 
approach to (方法 ) , 540 
basic-block boundaries (基本 块 边界 ) , 537 
delay function computation (延迟 函数 的 计算 ) , 538, 
539 
dependence DAG (依赖 DAG) , 537-543 
heuristics ( 启发 式 ) , 542 
ICAN code (ICAN 代 码 ) , 538-541 
NP-hard problem (NP 困 难 的 问题 ) , 537 
performance and (性 能 ) , 437 . 
literal constants, as jump and return-jump functions (文字 
常数 ， 作 为 转移 和 返回 转移 函数 ) , 640 R 
live range, in register allocation by priority-based graph 
coloring (活跃 范围 ， 基 于 优先 级 的 图 着 色 寄存 
器 分 配 中 ) , 524-526 
live variables (活跃 变量 ) 
defined (4E X.) , 443,445 
in interference graphs (冲突 图 中 ) , 494 
live range (活跃 范围 ) , 524 
in register renaming (寄存 器 重 命名 中 ) , 564 
live variables analysis (活跃 变量 分 析 ) , 229, 443-446 
backward data-flow analysis (向 后 数据 流 分 析 ) ， 
445-447 
live vs. dead variables (活跃 变量 与 死去 的 变量 ) ， 
443,445 - 
Lo, Jack L., 545 
load operator, unary ( t ), in machine grammars ( 取 数 运 
算 符 (1 )， 机 器 语法 中 ) , 139 
loads, generating in symbol tables ( 取 数 指令 ， 在 符号 表 
中 生成 ) , 59-63 
local common-subexpression elimination (局 部 公共 子 表 
达 式 删除 ) , 379-385 
. algorithm (算法 ) , 380-381 
”available expressions (可 用 表达 式 ) , 379 
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binary case (两 种 情形 ) , 379-382 
combining with global (与 全 局 结合 ) , 394 
example (fj) , 382-384 
fast implementation (快速 实现 ) , 384-385 
global vs. (全 局 的 ) , 378 
overview (概述 ) , 379 
repeating (重复 ) , 394-395 
local copy propagation (局 部 复写 传播 ) , 356-358 
algorithm (算法 ) , 356-358 
generalizing for extended basic blocks (推广 到 扩展 大 - 
AK) , 361 
global copy propagation and (全 局 复写 传播 ) ,361 
local methods of register allocation (寄存 器 分 配 的 局 部 


方法 ) ,483-485 

local stack frames ( 局 部 栈 帧 ) . See stack frames (参见 
Tii) 

local symbol-table management ( 局 部 符号 表 管 理 ) , 47- 
49 


balanced binary tree (平衡 二 叉 树 ) , 48 
hashing (fk) , 48-49 
local transparency (局 部 透明 性 ) , 408-410 
locally anticipatable values (局 部 可 预见 值 ) , 410 
logical and operator (&), in ICAN (逻辑 与 运算 符 (&)， 
ICAN 中 ) , 27, 28 | 
logical not operator, unary (!) (逻辑 非 运算 符 ， 一 元 (D) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) , 74, 75 
in ICAN (ICAN 中 ) ,27, 28 
logical or operator (V), in ICAN (逻辑 或 运算 符 (V )， 
ICAN 中 ) ,27,28 
loop dependence tests (循环 依赖 测试 ) , 279-284 
loop distribution (循环 分 布 ) , 694 


loop fusion (循环 合并 ) , 684, 693-694 
` Joop header (循环 首 结 点 ) , 191 


loop interchange (循环 交换 ) , 684, 691 
loop invariants, removal of induction variables and (循环 
不 变量 ， 归 纳 变量 删除 ) , 449 
loop inversion (循环 倒置 ) , 587-588 
in DEC GEM compilers for Alpha (Alpha DEC GEM 
编译 器 中 ) , 729 
described (描述 ) , 580, 587 
determining that a loop is entered (判定 进入 一 个 循 
IR) , 587-588 
nested loops (RAG) , 587-588 
loop optimizations (循环 优化 ) , 425-460 
induction-variable optimizations ( 归纳 变量 优化 ) ， 
425-453 
order of optimizations (优化 的 顺序 ) , 458-459 
overview (概述 ) , 322, 425,457-459 
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transformations for data-cache optimization (数据 高 速 
缓存 有 关 的 转换 ) , 689-695 
unnecessary bounds-checking elimination (不 必要 的 边 
界 检查 删除 ) , 454-457 
loop peeling (44H) , 374, 684 
loop permutation (循环 置换 ) , 691 
loop reversal (循环 逆转 ) , 692 
loop simplifications (循环 化 简 ) , 580, 586-587 
loop skewing ( 循环 倾斜 ) , 692-693 
loop tiling (循环 铺 砌 ) , 694-695 
data-cache organization and (数据 高 速 缓存 组 织 ) ， 
697 
locality and (局 部 性 ) , 695-698 
loops not fully tilable in (循环 不 完全 可 铺 砌 ) . 696, 
697 
tile loop (WAA) , 694 
tile size and ( 瓦 片 大 小 ) , 697-698 
loop transformations for data-cache optimization (数据 高 
速 缓存 有 关 的 循环 转换 ) ，689-695 
lexicographically positive distance vector (词典 序 为 正 
的 距离 向 量 ) , 690-691 
locality and loop tiling (局 部 性 与 循环 铺 砌 ) , 695-698 
loop distribution ( 循环 分 布 ) , 694 
loop fusion (循环 合并 ) , 693-694 
”loop interchange (循环 交换 ) , 691 
loop permutation (循环 置换 ) , 691 
loop reversal ( 循环 逆转 ) , 692 
loop skewing (循环 倾斜 ) , 692-693 
loop tiling (循环 铺 砌 ) , 694-698 
overview (概述 ) , 689-691 
types (3579) , 690. 
unimodular transformations ( 么 模 转 换 ) , 690-693 
loop unrolling ( 循环 展开 ) 559-562 
architectural characteristics and (体系 结构 特征 ) ， 


560-561,562 : 
combining with window scheduling (与 窗口 调度 结 
&) , 553, 555 f 


described (描述 ) , 532, 573 

ICAN code (ICAN 代 码 ) , 561 

instruction-level parallelism increase (指令 级 并 行 性 增 
Jm) , 562 . 

loop characteristics and (循环 特征 ) , 561-562 f 

order of optimizations (优化 的 顺序 ) , 573, 574-575 

overview (概述 ) , 559 

register renaming and (寄存 器 重 命名 ) , 561 

rolled loop ( 卷 起 的 循环 ) , 559 

trace scheduling and (踪迹 调度 ) , 569 

unrolling factor (展开 因子 ) , 559 
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loop-carried dependence (循环 携带 的 依赖 ) , 278 
loop-independent dependence (循环 无 关 的 依赖 ) ,278 
loop-invariant code motion (循环 不 变 代 码 外 提 ) , 397- 
407 
algorithm (算法 ) , 397-400, 403-404 
examples (fil) , 400-403,404-406 
identifying loop-invariant computations (标识 循环 不 
变 计算 ) , 397-398 
order of optimizations (优化 的 顺序 ) , 421 
overview (概述 ) , 377, 397, 420 
preventing errors in (预防 错误 ) , 401-403 
reassociation with 〈 重 结合 ) , 415-416 
reductions (13253) , 406-407 
loops (循环 ) .See also dominators; for statements; if 
statements; while statements (也 参见 必 经 结 
AG for 语 句 ，if 语 名 ; while 语 句 ) 
canonical form (规范 形式 ) , 689 
canonical loop test (规范 循环 测试 ) , 275 
control-flow analysis (控制 流 分 析 ) , 191-196 
dependences in (依赖 关系 中 ) , 274-279 
dominance tree for ( 必 经 结 点 树 ) , 171-172 
doubly nested (CX EHE ER) , 275-276 
flow functions for structural analysis (结构 分 析 的 流 函 
数 ) ,237-239 
headers ( 首 结 点 ) , 191 
iteration space (KAN) , 275 ; 
iteration-space traversal ( 先 代 空间 遍历 ) , 275, 276, 
277 
kinds of optimizations (优化 的 种 类 ) , 6-7 
natural loops (正常 循环 ) , 191-193 
nesting depth and register allocation (WEREMA 
器 分 配 ) , 483,484 
strongly connected components ( 强 连 通 分 量 ) , 193- 
196 
well-behaved, in C (规则 的 ，C 中 ) , 425 
low-level intermediate languages (低级 中 间 语 言 ) ，71- 
72. See also LIR (也 见 LIR) 
order of optimizations 《优化 的 顺序 ) , 326-327, 328 
Low-level Intermediate Representation (低级 中 间 表 
示 ) .See LIR (参见 LIR ) 
low-level model of optimization (优化 的 低级 模式 ) , 7-9 
low-level optimizations (低级 优化 ) . See control-flow 
and low-level optimizations (参见 控制 流 低级 优 
化 ) 
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machine idioms, defined (机 器 方言 ， 定 义 ) , 599 
machine idioms and instruction combining (机 器 方言 和 
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指令 归并 ) , 599-602 
described (描述 ) , 580 
examples (f|), 599-602 
instruction combining (指令 归并 ) , 599 
Intel 386 family compilers (Intel 386 系 列 编译 器 ) , 
739-740 
machine idioms (机 器 方言 ) , 599 
order of optimizations ( 优化 的 顺序 ) , 604 
machine-level DAGs (机 器 级 DAG ) , 542-543 
machine simulators (机 器 横 拟 器 ) , 767-768 
Mansour, Yishay, 803 
Markstein, Peter, 494 
matrix multiplication (4B8PE3&) , 671 
maximal clique separators ( 最 大 分 离子 团 ) , 525-526 
maximal intervals ( 极 大 区 间 ) , 198-199 
maximal munch algorithms (EKAA) , 141 
maximal strongly connected components ( 强 连 通 分 量 ) , 
194 . 
maximum fixed point (MFP) (最 大 不 动 点 (MFP)) , 227 
may information alias analysis ( 可 能 信 息 别名 分 析 ) ， 
294, 295-296, 315 
global optimization and (全 局 优化 ) , 323 
interprocedural optimization and (过 程 间 优化 ) ， 
608,664 
optimization ( 优化) , 323 
McFarling, Scott, 682 
McKinley, K. S., 806 
medium-level intermediate languages (中 级 中 间 语 言 B. 
71, 72. See also MIR (452: JL MIR) 
DEC CIL, 727-728 
Intel IL-1, 736-737 
order of optimizations (优化 的 顺序 ) , 325-327 
register allocation (寄存 器 分 配 ) , 482-483 
Sun IR, 709-711 — 
Medium-level Intermediate Representation (中 级 中 间 表 
示 ) . See MIR (参见 MIR ) 
meet operation ( 交 运 算 ) 
for lattices (关于 格 的 ) , 223,225 
meet-over-all paths (MOP) solution (满足 全 路 径 
(MOP) 的 解 ) ,227 
meet-over-all paths (MOP) solution ( 满足 全 路 径 (MOP) 
的 解 ) , 227 
Mellor-Crummey, J. M., 806 
member of set operator ( € ), in ICAN (集合 成 员 运 算 符 
(€), ICAN) , 27, 28, 31, 34 
memory addresses, LIR {存储 器 地 址 ) ,91 
memory hierarchy optimizations (存储 层次 优化 ) , 669- 
: 704 
combined or unified cache (合并 的 或 统一 的 高 速 组 
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T£) , 670 
data-cache impact (数据 高 速 缓存 的 影响 ) , 670-671 
data-cache optimization (数据 高 速 缓存 优化 ) ,687- 
700 - | 
effectiveness of caches (数据 高 速 缓存 的 有 效 性 ) ， 
670 
instruction-cache impact (指令 高 速 缓存 的 影响 ) , 672 
instruction-cache optimization (指令 高 速 缓 存 优 化 ) , 
672-682 
order of optimizations .( 优化 的 顺序 ) 701-703 
scalar replacement of array elements (数组 元 素 的 标量 
替换 ) , 682-687 
scalar vs. memory-oriented optimizations (标量 与 面向 
存储 器 的 优化 ) , 700 
translation-lookaside buffer (TLB) ( 
区 ) ,670 
memory speed, disparity with processor speeds (存储 器 
速度 ， 与 处 理 器 速度 的 不 一 致 ) , 669 
Mesa, alias determination (Mesa， 别 名 判定 ) , 642-643 
MFP. See maximum fixed point (MFP) (参见 最 大 不 动 点 
(MFP)) 
minimal intervals (最 小 区 间 ) , 199, 200 
MIPS compilers (MIPS 编 译 器 ) 
branch architecture and (分 支 体系 结构 ) ; 533 
MIPS machine simulator (MIPS 机 器 模拟 器 ) , 767- 
768 ` 
mixed model of optimization in (优化 的 混合 方式 ) ,9 
MOST pipelining algorithm (MOST 流 水 算法 ) , 567 
procedure integration and (过 程 集成 ) , 469-470 
type checking (类 型 检查 ) , 132 
MIR, 73-78. See also intermediate code (也 参见 中 间 代 
83) 
alternative PA-RISC code. sequences (可 选 的 PA-RISC 
代码 序列 ) ,72 
array representation (数组 表示 ) , 68-69 
assignments (fÉ) , 75 
changes to define HIR (定义 为 HIR 的 改变 ) ,78-79 
changes to define LIR (定义 为 LIR 的 改变 ) , 79-81, 
492-494 
comments (注释 ) , 76 
definition of (定义 ) ,78-79 
described (描述 ) ,4 
examples ( 例 ) , 76-78 
expressions (表达 式 ) , 84-85 
forward substitution in (向 前 替代 ) , 396 
goto instruction (goto 指 令 ) , 75-76 
ICAN representation of (ICAN 表 示 ) , 81-85 
identifiers (标识 符 ) ,76 
instructions (指令 ) , 75-76 
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instructions as ICAN tuples (作为 ICAN 元 组 的 指令 ) ， 
82-84 
integer constants ( 整 常 数 ) , 76 
loop code (循环 代码 ) ,5 
operators (运算 符 ) , 75 
operators in IROper (IROper 中 的 运算 符 ) ， 
receives (接收 ) ,75 
XBNF syntax of instructions (指令 的 XBNF 语 法 ) ， 
73-75 
XBNF syntax of programs and program units (程序 和 
程序 单位 的 XBNF 语 法 ) ,74 
mixed model of optimization (优化 的 混合 方式 ) , 7-10 
ML, run-time support (运行 时 支持 ) , 131-133 
Modula-2 
enumerated value representation ( 枚 举 值 的 表示 ) ， 
107 
reducible flowgraphs and ( 可 归 约 流 图 ) , 196 
scoping issues (作用 域 问题 ) , 52 
module storage class (模块 存储 类 ) , 44 
modulo operator (%), in ICAN ( 求 模 运 算 符 (%), ICAN 
rh) ,27, 29 
monotone flow functions (单调 流 范 数 ) , 226 
MOP solution (MOP 解 ) . See meet-over-all paths (MOP) 
solution (参见 满足 全 路 径 (MOP) 的 解 ) 
Morel, Etienne, 407, 422 
MOST pipelining algorithm (MOST 流 水 算法 ) , 567 
move conditional (条 件 传 送 ) , 571-572 
move operation (传送 操作 ) , 571-572 
Mowry, Todd C., 699 
Muchnick, Steven S., 225, 262, 264, 265, 287, 290, 306, 
316, 373,542, 575, 576 
multi-level intermediate languages (多 级 中 间 语 言 ) , 72- 
Bo : 
multiplication operator (*) (乘法 运算 符 (*)) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) ,74,75 
in ICAN (ICAN 中 ) ,27,29 
must information (一 定 信息 ) 
alias analysis ( 别名 分 析 ) , 294, 295-296, 315 
global optimization and (全 局 优化 ) , 323 
interprocedural optimization and (过 程 间 优 化 ) ， 608, 
664 
optimization (优化 ) , 323 
Myers, E. A., 634 


N 


Nahshon, Itai, 803 
name mangling (4 FEM) , 10 
name scoping (名 字 作 用 域 ), 663 


names, in register allocation by graph coloring (名 字 , 图 
着 色 寄 存 器 分 配 中 ) . See webs (参见 网 ) 
naming conventions, ICAN data structures and routines 
(命名 约定 ，ICAN 数 据 结构 和 例 程 ) , 92-95 
NaN (not a number), in ANSI/IEEE floating point (NaN 

(AES E), ANSUIEEEiY AR) , 342 
natural loops (自然 循环 ) , 191-193 
algorithm (算法 ) , 192 
preheaders (AYHER) , 193 
natural loop schema ( 自然 循环 图 解 ) , 203 
negation operator, unary (一 )《( 取 负 运 算 符 ， 一 元 (一 )) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) ,74,75 
in ICAN (ICAN 中 ) , 27, 29. 
negative distance, in direction vectors ( 负 距 离 ， 方向 向 
量 中 ) 
2,278 
一 ,278 
nested regions (HRA) , 198 
Nickerson, Brian, 523 
Nicolau, Alexandru, 287, 571,573 
nil value (ICAN), overview (nil 值 (ICAN)， 概述 ) ， 
24, 35 
node splitting (4) 4338) , 197 
non-empty closure operator, unary postfix (*), applied to 
functions (JEZDZA, ARC., TERI 
于 函数 ) , 235 
nonterminating computation (不 终止 的 计算 ) . See 
infinite loop (参见 无 限 循环 ) — 
nop, in delay slots (nop， 在 延迟 槽 中 ) , 535 
normalized form for loops (循环 的 正规 化 形式 ) , 689 
notation (表示 法 ) . See also Informal Compiler 
Algorithm Notation (ICAN) (也 参见 非 形式 编译 
算法 表示 ) 
for numbers in this book (关于 本 书 中 的 数字 ) , 17 
not equal to operator (不 相等 运算 符 ) 
t=, in HIR, MIR, and LIR (!=，HIR、 MIR 和 LIR 中 ) , 
74, 75 | 
*.inICAN (< ,ICAN 中 ) , 27, 28, 29, 30 
not member of set operator (€), in ICAN (不 属于 集合 成 
员 运 算 符 ，ICAN 中 ) ,27, 31 
NP-hard and NP-complete problems (NP 困 难 的 和 NP 完 
全 的 问题 ) , 537, 544, 573, 602, 637, 689 
nullification (作废 ) . See branch scheduling (参见 分 支 


调度 ) 

number notations (数字 表示 法 ) , 17 
oO 

Odnert, Daryl, 662 


“off-by-one” errors ( 差 1 错误 ) , 454 
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Omega test (Omega 测试 ) , 284 
one or more copies operator, unary postfix (*), in XBNF 
notation 《一 次 以 上 复制 运算 符 ， 一 元 后 缀 ()， 
XBNF 表 示 中 ) , 19,20 
one-pass compilers (一 遍 编 译 器 ) 
described (描述 ) ,3 
efficiency of (效率 ) ,3,6 
opcodes《 伪 代码 ) 
Alpha, 751-752 
Intel 386 family architecture (Intel 386 系 列 体系 结 
MJ) , 753 
PA-RISC, 754-755 
POWER and PowerPC (POWER 和 PowerPC) , 750 
SPARC, 748-749 
operating-system interface (操作 系统 接口 ) ,3 
operators (运算 符 }】 
assignment statements (ICAN) (赋值 语句 (ICAN)) , 
36, 38 
ICAN, 27-36 
HIR, 82 
LIR, 82 
MIR, 75, 82 
sets (集合) , 759 
size operator (ICAN) (大 小 运算 符 (ICAN)) , 36 
XBNF notation (XBNEF 表 示 ) , 19-20 
optimality principle (最 优 原 理 ) , 160 
optimization ( 优化 ) . See also specific types of 
optimization (也 参见 各 种 特殊 类 型 的 优化 ) 
criteria for (标准 ) , 320 
group I (第 一 组 ) , 323-324 
group II (第 二 组 ) , 324 
group II (第 三 组 ) , 324-325 
group IV (第 四 组 ) , 325 
importance of (重要 性 ) , 6-7, 320-321, 323-325 
intermediate code and (中间 代码 ) , 67-68 
as misnomer (用 词 不 当 ) , 319 
order of optimizations (优化 的 顺序 ) , 325-328 
performance and (性 能 ) ,319, 320, 321 
safe or conservative (安全 的 或 保守 的 ) ,319-320 
optimizing compilers (优化 编译 器 ) 
aggressive, placement of optimizations in (BGH, (X 
化 安排 中 ) , 11-14 
low-level model (低级 模式 ) , 7-9 
mixed model (混合 模式 ) ,7-10 
placement of optimizations (优化 安排 ) , 11-14 
structure of (结构 ) ,7-11 
optional operator ([.... in XBNF notation (可 选 运算 符 
(L.)，XBNE 表 示 中 ) , 19, 20 
order of optimizations (优化 的 顺序 ) 
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control-flow and low-level optimizations (控制 流 与 低 
级 优化 ) , 603-604 

early optimizations (前 期 优化 ) , 372-373 

instruction scheduling (指令 调度 ) , 532, 574-575 

interprocedural optimizations (过程 间 优化 ) , 665-666 

loop optimizations (循环 优化 ) , 458-459 

memory hierarchy optimizations (存储 层次 优化 ) ， 
701-703 

overview (概述 ) , 11-14, 325-328 

percolation scheduling (渗透 调度 ) .532, 574 

postpass or peephole optimizations (Jr MBIT 
化 ) , 603 

procedure optimizations (过 程 优化 ) , 477-478 

redundancy elimination ( 宛 余 删 除 ) , 327, 421-422 

register allocation (寄存 器 分 配 ) , 481, 482-483,527- 
528 

trace scheduling (踪迹 调度 ) , 532, 574 

output dependence (输出 依赖 ) 
defined (定义 ) , 268 
output-dependence operator(6") (输出 依赖 运算 符 


- (&)) ,268 
outside-in order (由 外 向 内 顺序 ) , 609 
P 
PA-RISC 


branch architecture (分 支 体系 结构 ) , 533 
floating-point register i (fri) ( 浮 点 寄存 器 i ($fr))， 
754 | 
floating-point register i, left part (%friL) ( 祥 点 寄存 
器 i， 左 部 (%friL)) , 754 
floating-point register i, right part ($£riR) (TRAE 
器 i， 右 部 (%friR)) .754 
integer register i (Gri) (整数 寄存 器 i (%ri)) , 754 
PA-RISC compilers (PA-RISC 编译 器 ) 
alternative sequences for MIR. (可 选 的 MIR 序 列 ) , 72 
assembly language (汇编 语言 ) , 753-755 
branch architecture and (分 支 体 系 结构 ) ,533 
low-level model of optimization in (优化 的 低级 模 
式 ) ,9 | 
machine idioms and instruction combining (机 器 方言 
和 指令 归并 ) , 599, 600-602 
SLLIC in (SLLIC 中 ) ,68 
type checking (类 型 检查 ) , 132 
UCODE in (UCODE 中 ) , 68 
packed records (压缩 的 记录 ) , 108 
pair binding graph (成 对 结合 图 ) , 649-650 
marking algorithm (标记 算法 ) , 650, 652-653 
ParaFrase programming environment ( ParaFrase 程 序 设计 
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环境 ) , 637 
parallel computation graphs (PSGs) (并 行 计算 图 ) , 571- 
573 
parameter-passing (参数 传递 ) 
in C, aliases and (C 中 ， 别 名 ) , 301 
in Fortran 77, aliases and (Fortran 77 中 ， 别 名 ) , 298- 
299 
in-line expansion and (ARP JR) , 471-472 
interprocedural optimization and ( 过程 间 优 化 ) , 608 
jump and return-jump functions (转移 和 返回 转移 函 
数 ) ,641 
in Pascal, aliases and (Pascal 中 ， 别 名) , 299-300 
procedure integration and (过 程 集 成 ) , 468-469 
parameter-passing (run-time) (参数 传递 (运行 时 )) . 
116-119 
call by name ( 传 名 字 ) , 118 
call by reference ( 传 地 址 ) , 117-118 
call by result ( 传 结果 ) , 117 
call by value ( 传 值 ) , 117 
call by value-result ( 传 值得 结果 ) , 117 
in flat register file (平面 寄存 器 文件 ) , 121-123 
invoking procedures (调用 过 程 ) , 119-126 
labels (标号 ) , 118-119 
mechanisms (机 制 ) , 116-117 
procedure-valued variables (过 程 值 变量 ) , 126 
with register windows (用 寄存 器 窗口 ) , 123-126 
on run-time stack (在 运行 时 栈 上 ) , 123 


parameters (EZ) . See also arguments; parameter- 


passing (run-time) (同时 参见 实 参 ， 参 数 传递 


(运行 时 )) 
defined (定义 ) , 117 
parsing (分 析 ) . See syntactic analysis (参见 语法 分 析 ) 
partial redundancy (部 分 元 余 ) , defined ( 定义 ) , 407 
partial-redundancy analysis (部 分 元 余 分 析 ) ,230 
partial-redundancy elimination (部 分 宛 余 删除 ) , 407- 
415 
advantages of modern formulation (现代 2 公式 的 优 
PL) , 378,421 
critical edges (关键 边 ) , 407, 408 
‘delayed expressions 《延迟 的 表达 式 ) ,411-412 
earliestness (最 早 性 ) , 411 
future trends (未 来 的 趋势 ) , 744 
globally anticipatable values (全 局 可 预见 值 ) , 410- 
411 
implementing (实现 ) , 414 
isolated expressions. (孤立 的 表达 式 ) ,413 
latestness【 最 迟 性 ) , 412-413 
lazy code motion ( 懒 情 代 码 移动 ) , 407 
local transparency 《局 部 透明 性 ) , 408-410 


locally anticipatable values ( 局 部 可 预见 值 ) , 410 
order of optimizations (优化 的 顺序 ) , 421 
overview (概述 ) , 377, 407, 420 
reassociation with ( 重 结合 ) , 415-416 
value numbering vs. 〈 值 编号 ) , 343 
partitioning algorithm for global value numbering (全 局 
值 编号 的 划分 算法 ) , 351-355 
Pascal 
alias determination 《别名 判别 ) , 642-643 
aliases in (别名 ) , 299-300, 304, 305 
basic-block boundaries (基本 块 边界 ) , 174 
character string representation (字符 串 表 示 ) , 108- 
109 
enumerated value representation ( 枚 举 值 的 表示 ) ， 
107 
loop unrolling (循环 展开 ) , 559 
pointers (指针 ) , 258 
scoping and symbol-table structure (作用 域 和 符号 表 
结构 ) , 49, 50 
unnecessary bounds-checking elimination for (不 必要 
的 边界 检查 ) , 454-457 
pass-through parameter, for jump and return-jump 
functions (经 传递 的 参数 ， 关 于 转移 和 返回 转移 
mae) , 641 
path expressions (HEREA) v 260 
path strings (FTR), 
PCGs. See parallel computation ,praphs (PCGs) (参见 并 
行 计算 图 (PCG)) 
PDGs. See program-dependence graphs (PDGs) " 见 程序 
依赖 图 (PDG)) 
PDP-11 BLISS compiler (PDP-11 BLISS 编 译 器 ) . See 
BLISS compiler (参见 BLISS 编 译 器 ) 
peephole optimizations ( 罕 孔 优化 ) 
Alpha compilers (Alpha 编译 器 ) , 729, 730 
branch prediction (4x X 7439) , 580, 597-599 
described (描述 ) , 579, 597, 603-604 
Intel compilers (Intei 编 译 器 ) , 739 
machine idioms and instruction combining (机 器 方言 
和 指令 归并 ) ,580, 599-602 
order of optimizations (ICM HE) , 603 
POWER and PowerPC compilers (POWER 和 PowerPC 
编译 器 ) ,723 
SPARC compilers (SPARC 编 译 器 ) ,713 
Pelegri-Llopart, Eduardo, 165 
Pentium. See Intel 386 family architecture ( 见 Intel 386 系 
列 体系 结构 ) 
PentiumPro. See Intel 386 family architecture ( 见 Intel 
386 系 列 体系 结构 ) 
branch architecture (分 支 体 系 结构 ) , 533 
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percent character (7696), in ICAN ( B ETE E (9696), 
ICAN 中 ) , 29 
percolation scheduling 《渗透 调度 ) , 571-573 
algorithm (算法 ) ,572 
computation nodes (计算 结 点 ) , 571 
described (描述 ) , 532 
meta-transformations (元 转换 ) , 573 
order of optimizations 《优化 的 顺序 ) , 532, 574 
transformations (转换 ) , 571-573 
write-live dependence and (5j — 活跃 依赖 ) , 571 
perfect static predictor (完美 静态 预测 器 ) , 598 
performance (ERE) . See also efficiency (也 参见 效率 ) 
algebraic simplifications and (代数 化 简 ) , 334-335 
instruction scheduling and (指令 调度 ) , 573 
interprocedural optimization and (过 程 间 优 化 ) , 608 
list scheduling and ( 表 调 度 ) , 437 
as optimization criterion (作为 优化 标准 ) , 320 
optimizations and (优化 ) ,319, 320, 321 
Procedure integration and (过 程 集成 ) , 468, 469-470 
processor speeds vs. memory speeds ( 处理 器 速度 与 存 
储 器 速度 ) , 669 
register allocation by graph coloring and (图 着 色 寄 存 
器 分 配 ) , 481 
trace scheduling and (踪迹 调度 ) , 570 
period, of a recurrence (周期 ， 重 现 ) , 683 
¢-function, static single assignment form (m3, HA 
单 赋值 形式 ) , 252, 253 
Pinter, Ron Y., 803 
Pinter, Shlomit S., 526 
pipeline architectures (流水 体系 结构 ) , 531, 532-533 
interlocks ( 互 锁 ) , 532-533 
pipelining (流水 ) . See software pipelining (参见 软 流 
水 ) l 
PL.8 compiler (PL.8 编 译 器 ) , 485, 718 
PL/I, character string representation (PL/I, FB 
示 ) , 108-109 : 
placement of optimizations (优化 的 安排 ) . See order of 
optimizations ( 见 优 化 的 顺序 ) 
PLT. See procedure linkage table (PLT) (参见 过 程 连 接 表 
(PLT)) 


pointer indirection operator, unary (*), in HIR, MIR, and l 


LIR (指针 间接 运算 符 ， 一 元 (*)，HIR、MIR 和 
LIR 中 ) ,74, 75, 79 
pointers (指针 ) 
in C, aliases and (C 中 ， 别 名 ) , 294, 300-301 
data-flow analysis (数据 流 分 析 ) , 258 
described (138) , 110-111 
in Fortran 77 Cray extensions, aliases and (Fortran 77 


Cray 扩 充 中 ， 别 名 ) , 299 
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in Fortran 90, aliases and (Fortran 90'p, 91 £) , 301 
interprocedural alias analysis and (过 程 间 别名 分 析 ) . 
654-656 
in interprocedural side-effect analysis (过 程 间 副作用 
分 析 中 ) , 637 
in Pascal, aliases and (Pascal 中， 别名) , 299, 300 
to procedure descriptors (指向 过 程 找 述 字 ) , 126 
run-time representation (运行 时 的 表示 ) , 108 
Polish-prefix notation (前 缀 波兰 表示 ) 
in Graham-Glanville code-generator generator 
(Graham-Glanville 代 码 生 成 器 的 产生 器 中 ) , 
142 
overview (概述 ) , 101 
semantics-directed parsing (语义 制导 的 分 析 ) , 159- 
160 
polymorphic languages, run-time support (多 态 语言 ， 运 
行 时 支持 ) , 131-133 
polynomial functions, for jump and return-jump functions 
(多 项 式 函数 ， 转 移 和 返回 转移 函数 ) , 641 
portability, low-level vs. mixed optimization (可 移植 性 ， 
低级 与 混合 的 优化 ) , 8-9 
postdominance (nib EX) 
defined (Æ Y.) , 182 
tree (Ht) , 284-285 
position-independent code (位 置 元 关 代 码 ) , 128, 713, 
741 
position indicator (.), in LR(1) items (位 置 指示 符 (.)， 
LR(1) 项 目 中 ) , 144 . 
positive distance, in direction vectors. ( 正 距 离 ， 方 向 向 
量 中 ) 
<,278 
+,278 . 
postdominators (RUBH), 182 
postorder traversal (后 序 遍 历 ) ， 180, 181 
postpass optimizations (后 遍 优化 ) . See peephole 
optimizations (参见 罕 孔 优化 ) 
POWER and PowerPC compilers (POWER 和 PowerPC 编 
译 器 ) ,716-725 
alias information (别名 信息 ) ,721 
assembly code examples (汇编 代码 的 例子 ) , 723-725 
assembly language (汇编 语言 ) , 749-750 
branch architecture and (分 支 体系 结构 ) , 533 
computation table (CT) (计算 表 (CT)) , 719 
control-flow analysis (控制 流 分 析 ) , 721 
data-flow analysis (数据 流 分 析 ) , 722 
data prefetching (数据 预 取 ) , 698 
development (开发 ) ,718 
instruction scheduler (指令 调度 器 ) , 723 
languages supported (支持 的 语言 ) ,718 
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low-level model of optimization in 《优化 的 低级 模 
X) *, 9 


machine idioms and instruction combining (机 器 方言 . 


和 指令 归并 ) , 599, 601-602 
optimizer transformations (优化 器 转换 ) , 722 
order of optimizations (优化 的 顺序 ) , 705 
peephole optimizations (383L(L[E) , 723 
POWER architecture (POWER 体系 结构 ) , 716-717 
PowerPC architecture (PowerPC 体 系 结构 ) , 717 
procedure descriptor table (过 程 描 述 符 表 ) , 719 
procedure list (过 程 列表 ) ,719 
register allocators (寄存 器 分 配器 ) , 523,723 
register coalescing (寄存 器 合并 ) , 723 
scavenging, in register allocation (清扫 ， 寄 存 器 分 配 
中 ) ,723 
structure (结构 ) , 718-719 
symbolic register table (符号 寄存 器 表 ) , 719 
TOBEY common back end (TOBEY 公 共 后 端 ) , 719- 
723 
*wand waving", 722 
XIL code (XIL 代 码 ) , 719-721 
YIL code (YIL 代 码 ) , 721 
power test (Power 测 试 ) , 284 
precedes-in-execution-order operator (< ) (执行 顺序 上 
先 于 运算 符 ( 4 )) , 267, 275 
predecessor basic blocks (前 驱 基本 块 ) , 175 
register allocation and (寄存 器 分 配 ) , 484 
prefetching ( 预 取 ) l 
data prefetching (数据 预 取 ) , 688,698-700 
instruction prefetching (指令 预 取 ) , 672-673 
prefix unary operators (ICAN) (前 弘一 元 运算 符 
(ICAN)) . See unary operators (ICAN) (参见 一 
元 运算 符 (ICAN)) . 
preheaders of natural loops (正常 循环 的 前 置 块 ) , 193 
preorder traversal (前 序 遍 历 ) , 179-181 
structural control-flow analysis (结构 控制 流 分 析 ) ， 
207 
preprocessors 〈 预 处 理 ) 
described (描述 ) , 10 
high-level intermediate languages in (高 级 中 间 语 言 
中 ) , 69-70 
preserving definitions (保持 定 值 ) , 220 
priority-based graph coloring (基于 优先 级 的 图 着 色 ) ， 
524-525. See also register allocation by graph 
coloring 〈 同 时 参见 图 着 色 寄 存 器 分 配 ) 
procedure and block placement in instruction cache (指令 
高 速 缓存 中 过 程 和 基本 块 的 放置 ) ,676-677 
procedure-call side effects (过 程 调用 副作用 ) . See side 
effects of procedure calls 


procedure-call statements (ICAN), form (过 程 调用 语句 
(ICAN )， 形 式 ) ,38 
procedure cloning (过 程 克隆 ) , 607-608,657 
order of optimizations (优化 的 顺序 ) , 665 
procedure declarations (ICAN) (过 程 说 明 (ICAN ) ) 
overview (概述 ) , 23, 24 
syntax (语法 ) , 26-27 
procedure descriptors (过 程 描述 字 ) , 126 
procedure integration (过 程 集成 ) , 465-470 
breadth of (宽度 ) , 466-468 
effects of (效果 ) ,469-470 
implementation (实现 ) , 468-469 
order of optimizations (优化 的 顺序 ) , 477 
performance and (性 能 ) , 468 
summary (SL) ,476 
procedure linkage table (PLT) (过 程 连接 表 (PLT)) , 130, 
131 
procedure optimizations (过 程 优化 ) , 461-479 
described (描述 ) , 322, 461 
in-line expansion (ARH HR) , 470-472 
leaf-routine optimization ( 叶 例 程 优化 ) , 472-473 
order of optimizations (优化 的 顺序 ) , 477-478 
overview (概述 ) , 476-477 
procedure integration (automatic inlining) (过 程 集成 
(自动 内 联 ) ) , 465-470 
shrink wrapping (收缩 包装 ) , 472, 473-476 
tail-call and tail-recursion elimination ( 尾 调用 和 尾 递 
归 删 除 ) , 461-465 
procedure parameters, in interprocedural side-effect 
analysis (过 程 参数 ， 过 程 副 作用 分 析 中 ) , 637 
procedure sorting (过 程 排序 ) ,673-676 
algorithm (算法 ) ,673-676 
overview (概述 ) , 673 
procedure splitting and (BDH) , 681 
procedure specialization (过 程 说 明 ) . See procedure 
cloning (参见 过 程 克隆 ) 
procedure splitting (过 程 分 割 ) , 681-682 
procedure-valued variables (过 程 值 变量 ) ; 126 
interprocedural control-flow analysis (过 程 间 控 制 流 分 
析 ) ,612-618 
procedures (3t £2) , 119-126. See also parameter-passing 
(run-time) (也 参见 参数 传递 (运行 时 )) 
call (调用 ) , 119 
epilogue (出 口 处 理 ) , 120 
extended formal parameters (扩展 的 形式 参数 ) , 643 
Fortran 90, aliases and (Fortran 90, 4144) , 301-302 
Pascal, aliases and (Pascal, #444) , 300 
phases in run-time execution (运行 时 执行 的 阶段 】， 
119-120 
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prologue (入 口 处 理 ) , 119-120 
static link (静态 链 ) , 114 
value graphs ( 值 图 ) , 349-351 
product of lattices ( 格 的 乘积 ) , 224 
production, XBNF notation (产生 式 ，XBNEF 表 示 ) , 19- 
20 
Production-Quality Compiler Compiler (PQCC) (产品 质 
量 编译 器 的 编译 器 (PQCC)) , 730 
Proebsting, Todd, 273,769 
profiling tools (剖面 分 析 工 具 ) , 770-771 
program management, interprocedural issues (程序 管理 ， 
过 程 间 的 问题 ) , 663-664 
program points alias-propagator flow functions (程序 点 
ANZ FER UB) , 308 
defined (定义 ) , 295, 303 
functions mapping (函数 映射 ) , 304 
program summary graph (程序 概要 图 ) , 634-636 
program supergraph (程序 超 图 ) , 634 
program syntax (ICAN) (程序 语法 (ICAN)) ,25 
program verification, data-flow analysis for (程序 证 明 ， 
数据 流 分 析 用 途 ) , 261-262 
program-dependence graphs (PDGs) (程序 依赖 图 
(PDG)) , 284-286 
constructing CDGs for (构造 CDG , 284-286 
control-dependent nodes (控制 依赖 结 点 ) , 284, 286 
in instruction scheduling (指令 调度 中 ) , 723 
region nodes (区 域 结 点 ) , 284, 285 
*programming in the large" issues (大 规模 程序 设计 中 
的 问题 ) , 663-664 
Prolog, run-time support (Prolog ， 运 行 时 支持 ) ,131- 
133 
prologue of procedures (过 程 的 入 口 处 理 ) ,119-120 
shrink wrapping and (收缩 包装 ) , 472, 473 
proper ancestor (国有 祖先 ) , 185 
proper interval. (正常 区 间 ) , 204 
pruned SSA form (修剪 过 的 SSA 形 式 ) , 258 
pruning interference graphs (修剪 冲突 图 ) , 488, 503- 
506 
pseudo-operations, SPARC ( 伪 操作 ， SPARC) , 749 
PSPACE-hard (PSPACE 困 难 的 ) ,612 
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QPT, 770 

QPT STATS, 770 

quadruples (四 元 式 ) 
infix form. (中 间 形 式 ) , 96 
translation from trees (从 树 转 换 ) , 99-100 
translation to trees (转换 到 树 ) , 98-99 


translation to triples (转换 到 三 元 式 ) , 97 
trees vs. (fj) ,98 
triples vs. (三 元 式 ) ,96 
quotation mark character (%"), in ICAN ( 双 引 号 字符 
(%"), ICAN 中 ) ,29 
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R-coloring (RÆ) . See also register allocation by 
graph coloring (参见 图 着 色 寄 存 器 分 配 ) 
defined (定义 ) , 485 
degree < R rule ( 度 <R 规 则 ) , 503-506 
Rainish, Victor, 548 
range checking (范围 检查 ) , 454. See also unnecessary 
bounds-checking elimination (同时 参见 不 必要 
的 边界 检查 删除 ) 
reaching-definitions analysis (到 达 — 定 值 分 析 ) , 218- 
223 
basic blocks and (基本 块 ) ,218 
correspondence between bit-vector positions, 
definitions, and basic blocks (位 向 量 的 位 置 、 定 
值 和 基本 块 之 间 的 对 应 ) , 219, 220 
described (描述 ) , 229 
forward structural data-flow analysis (向 前 结构 数据 流 
分 析 ) , 242-244 
interval data-flow analysis (区 间 数 据 流 分 析 ) . 249- 
250 
iterative forward bit-vector problem (向 前 迭代 位 向 量 
问题 ) , 218-223 
‘killing definitions ( 杀 死 定 值 ) , 220 
preserving definitions (保持 定 值 ) ,220 
undecidability in (不 可 判定 的 ) , 219 
reading flow among chapters in this book (阅读 本 书 各 章 
节 的 流程 ) ,14-16 
real ICAN type (ICAN 实 类 型 ) 
binary operators ( 二 元 运算 符 ) , 29 
overview (概述 ) , 29 
reassociation ( 重 结 合 ) 
simplifications and reassociation (也 参见 代数 化 
简 和 重 结合 ) 
with common-subexpression elimination (公共 子 表达 
式 删 除 ) , 385,415-416 
with loop-invariant code motion (循环 不 变 代码 外 
提 ) , 415-416 
with partial-redundancy elimination (部 分 宛 余 删除 ,) ， 
415-416 
redundancy elimination and (JURER) , 415-416 
receives, MIR instruction type (接受 ，MIR 指 令 类 型 ) , 75 
recompilation, interprocedural issues (重新 编译 ， 过 程 间 
问题 ) , 664 


See also algebraic 
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record, (record type constructor), in ICAN (记录 ，( 记 
录 类 型 构造 符 )，ICAN 中 ) , 23 
records (记录 ) 
data-flow analysis (数据 流 分 析 ) , 258, 259 
packed and unpacked (压缩 的 和 非 压缩 的 ) , 108 
run-time representation (运行 时 的 表示 ) , 108 
records, in ICAN (记录 ，ICAN 中 ) 
binary operators, in ICAN (二 元 运算 符 ，ICAN 中 )， 
34 
constant delimiters (<...>) (常数 分 界 符 (<...>)) , 27, 
33 
constants (常数 ) ,33 
overview (概述 ) , 33-34 
type constructor (record {.,..}))( 类 型 构造 符 
(record {...})),23, 26, 33 
recursion (递归 ) 
in C, aliases and (C 中 ， 别 名 ) , 301 
in Fortran 90, aliases and (Fortran 90 中 ， 别 名 ) , 301 
inlining and (AR) , 468 
in interprocedural side-effect analysis (过 程 间 副作用 
分 析 中 ) , 637 
in Pascal, aliases and (Pascal 中 #14) , 300 
tail-recursion elimination 〈 尾 递归 删除 ) , 320-321 
reducibility of flowgraphs ( 流 图 的 归 约 性 ) , 196-197 
reductions, loop-invariant code motion ( 归 约 ， 循 环 不 变 
代码 外 提 ) , 406-407 
redundancy elimination ( 宛 余 删除 ) , 377-423 
code hoisting (代码 提升 ) ,417-420 
common-subexpression elimination (公共 子 表达 式 删 
除 ) ,378-396 
described (dh) , 322 
loop-invariant code motion (循环 不 变 代码 外 提 ) ， 
397-407 
order of optimizations 〈 优 化 的 顺序 , 327, 421-422 
overview (概述 ) , 377-378 7 
partial-redundancy analysis 《部 分 元 余 分 析 ) , 230 
partial-redundancy elimination ( 部 分 元 余 删除 ) , 407- 
, A15 
reassociation ( 重 结合 ) , 415-416 
region (KIR) , 175 
region nodes of PDGs (PDG 的 区 域 结 点 ) , 284, 285 
register allocation (寄存 器 分 配 ) , 481-530, 659-662. See 
also interprocedural register allocation; register 
allocation by graph coloring ( 也 参见 过 程 间 寄 存 
器 分 配 ， 图 着 色 寄 存 器 分 配 ) 
candidates for allocation (分 配 的 候选 者 ) , 483-484 
combining with scheduling (与 调度 结合 ) , 526 
DEC compilers ( DEC 编译 器 ) ,730 
described (描述 ) , 322, 482 
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by graph coloring (采用 图 着 色 ) , 485-524 

importance of (重要 性 ) , 481 

instruction scheduling and (指令 调度 ) , 545 

Intel 386 family compilers (Intel 386 系 列 编译 器 ) , 
740 E 

interprocedural (过 程 间 的 ):, 659-662 

local methods (局 部 方法 ) , 483-485 

order of optimizations (优化 的 顺序 ) , 481, 482- 
483,527-528 

other approaches (其 他 方法 ) , 525-526 

overview (概述 ) , 481-483 

POWER and PowerPC compilers (POWER 和 PowerPC 
编译 器 ) ,723 

priority-based graph coloring (基于 优先 级 的 图 着 色 ) ， 
524-525 

scalar replacement of array elements (数组 元 素 的 标量 
替换 ) , 682-687 

SPARC compilers (SPARC 编 译 器 ) , 713 

SPUR LISP compiler (SPUR LISP 编 译 器 ) , 525 

register allocation by graph coloring (图 着 色 寄存 器 分 
配 ) , 485-524 

adjacency lists (邻接 表 ) , 487, 496-497, 498,499, 530 

adjacency matrixes (邻接 矩阵 ) , 487, 495-496, 497, 
530 

basic steps (AAR) , 485 

candidates for allocation (分 配 的 候选 者 ) , 489-494 

degree (HE) , 494 

degree < Rrule【〈 度 <R 规 则 ) , 503-506 

edge splitting ( 边 分 割 ) , 509 


‘examples (fj) , 485-486, 510-521 


heuristics used in register spilling (寄存 器 溢出 所 使 用 
的 启发 式 ) , 501,522-523 

interference graph (冲突 图 ) , 485, 486, 487, 488,494- 
497, 503-506 

interferences (冲突 ) , 481 

machine independence (机 器 依赖 ) , 524 

NP-completeness (NP 完 全 的 ) , 482 

order of optimizations 《优化 的 顺序 ) , 527-528 

other issues (其 他 问题 ) , 521-524 

overview (#38) , 481-482, 485-486 

performance and (性 能 ) , 481 

priority-based graph coloring 〈 基 于 优先 级 的 图 着 色 ) ， 
524-525 

register assignment (寄存 器 指派 ) , 488, 506, 508 

register coalescing (寄存 器 合并 ) , 487, 497-500 

register pairs ( SE AE 28 XT) , 523,529 

register pressure (寄存 器 压力 ) , 407, 506 

rematerialization ( 重 回 寄存 器 ) , 488, 501, 509, 523- 
524, 529, 530 
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spill costs computation ( 溢出 代价 计算 ) ，487- 
488,501-503 
spilling symbolic registers (溢出 符号 寄存 器 ) , 488, 
506-511 
top-level structure (高 层 结构 ) , 486-489 
two-address instructions (两 地 址 指令 ) , 499, 529 
webs (网 ) , 486, 489-494 
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static branch-prediction methods (静态 分 支 预测 方法 ) ， 
598 
static link (静态 链 ) , 114-116 
described (描述 ) , 111, 114 
in procedure descriptors ( 过程 描 述 字 ) , 126 
procedure sorting (过 程 排序 ) , 672-673 
setting (设置 ) , 114-115 
up-level addressing (上 层 寻 址 ) , 115-116 
static single-assignment form (静态 单 赋值 形式 ) . See 
SSA form (参见 SSA 形 式 ) 
static storage classes (静态 存储 类 ) , 44 
static variables (C)(C 的 静态 变量 ) , 44 
procedure integration and (过 程 集成 ) , 469 
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static-semantic validity, described (静态 语义 的 合法 性 ， 
描述 ) ,2 
Steele, Guy L., 525, 530 
Steenkiste, Peter, 662 
Steffen, Bernhard, 407, 443,597 
storage binding (存储 绑 定 ) , 54-58 
addressing method ( 寻 址 方法 ) , 54-55 
described (描述 ) , 54 
large local data structures (大 的 局 部 数据 结构 ) , 58 
symbolic registers ( 符号 寄存 器 ) , 55-56 
variable categories (变量 类 别 ) , 54 
storage classes of symbol tables (符号 表 的 存储 类 ) , 43- 
45 
automatic or class (自动 的 或 栈 的 ) , 44 
file or module (文件 或 模块 ) , 44 
global (全 局 的 ) , 44-45 
lifetime of variables (变量 的 生命 期 ) , 44 
scope (作用 域 ) ,43 
static (静态 的 ) , 44 
visibility of variables (变量 的 可 见 性 ) , 43-44 
store operator (+), in machine grammars (存储 运算 符 
(=), 机 器 语法 中 ) , 139 
stores, generating in symbol tables ( 存 数 指令 ， 在 符号 表 
中 生成 ) , 59-63 
Stoutchinin, A., 817 
straightening ( 伸 直 化 ) , 583-585 
described (描述 ) ,579, 583 
ICAN code (1ICAN 人 代码) , 584-585 
overview (MEXR) , 583-584 
strength reduction (强度 削弱 ) , 435-443 
algorithm (算法 ) , 436-438 
MIR example (MIR 例 子 ) , 437-443,444 
overview (概述 ) , 435-436 
on SSA form (在 SSA 形 式 上 ) , 443 
strict dominance (严格 必 经 结 点 ) , 182 
stride (464) ,670 
strongly connected components ( 强 连通 分 量 ) , 193-196 
algorithm (算法 ) , 194-195 
interprocedural data-flow analysis (过 程 间 数据 流 分 
析 ) ,631-632 
maximal ( 最 大 的 ) , 194 
natural loops ( 自然 循环 ) , 191-193 
strongly distributive ( 强 可 分 配 的 ) , 236 
structural control-flow analysis (结构 控制 流 分 析 ) , 202- 
214 
acyclic and cyclic control structures (无 环 和 有 环 控制 
结构 ) , 202-204, 207-208 
advantages (优点 ) , 173 


algorithm (算法 ) , 205-206 
data structures (数据 结构 ) , 205, 208-209, 211-212 
example ( 例 ) , 210-214 
global data structures (全 局 数据 结构 ) ', 205 
interval analysis compared to (与 区 间 分 析 的 比较 ) ， 
202 
preorder traversal (前 序 遍 历 ) , 207 
region-reduction routine (区 域 归 约 例 程 ) , 207, 209- 
210 
smallest improper region determination (最 小 非 正 常 区 
域 的 确定 ) , 210. 211 
structural data-flow analysis (数据 流 分 析 ) , 236-249 
backward problems (向 后 问题 ) , 244-247 
described (描述 ) ,236 
flow functions for if-then (用 于 if-then 的 流 函 
数 ) ,237-238 
flow functions for if-then-else (用 于 if-then- 
else 的 流 图 数 ) , 238 
flow functions for while (用 于 while 的 流 函 数 ) ， 
238-239 | 
forward problems (向 前 问题 ) , 236-244 
interval analysis compared to (与 区 间 分 析 的 比较 ) ， 
249 
reaching-definitions analysis (到 达 - 定 值 分 析 ) , 242- 
244 
representing equations (表示 方程 ) , 247-249 
structural hazards (结构 停顿 ) ,271 
structure of compilers (编译 器 的 结构 ) ,1-3 
optimizing compilers (优化 编译 器 ) ,7-11 
placement of optimizations (优化 的 安排 ) , 11-14 
subscript range operator (..), in ICAN (下 标 范围 运算 符 
(.), ICAN) , 26, 30 
subsumption ( 归 类 ) . See register coalescing (参见 寄存 
器 合并 ) 
subtraction operator ( 一) (减法 运算 符 ( 一 )) 
in HIR, MIR, and LIR (HIR、MIR 和 LIR 中 ) ,74,75 
in ICAN (ICAN 中 ) , 27, 29 
successor basic blocks ( 后 继 基本 块 ) , 175 
register allocation and (寄存 器 分 配 ) , 484 
SUIF, 769 
Sun compilers (Sun 编 译 器 ) . See SPARC compilers Ca 
SPARC 编 译 器 ) 
Sun IR, 71, 72, 709-710 
supergraph ( 超 图 ) , 634 
superscalar implementations (超标 量 实现 ) 
percolation scheduling for (渗透 调度 ) , 574 
scheduling for (调度 ) , 543-545 
software pipelining and ( 软 流水 ) , 548 
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trace scheduling for (踪迹 调度 ) , 574 
superscript operators, in XBNF notation (上 标 运算 符 ， 
XBNEF 表 示 ) , 19-20 
support of a function (函数 的 支持 ) , 637 
symbol names, procedure integration and (符号 名 ， 过 程 
ER) , 469 
symbol tables (符号 表 ) , 43-65 
compiler structure diagrams and (编译 器 结构 图 示 ) ,3 
generating loads and stores (生成 取 和 存 指令 ) , 59-63 
global symbol-table structure (全 局 符号 表 结 构 ) ,49- 


54 
local symbol-table management (局 部 符号 表 结 构 ) ， 
47-49 


run-time and (运行 时 ) , 114 
storage binding 《存储 绑 定 》, 54-58 
storage classes (存储 类 ) , 43-45 
symbol attributes (符号 属性 ) , 45-47 
symbol-table entries (符号 表 项 ) , 45-47 
variety in design (设计 中 的 变化 ) , 4 
symbol-table entries (符号 表 项 ) , 45-47 
typical fields (典型 字段 ) , 46 
symbolic execution 〈 符 号 执行 ) 
for jump and return-jump functions (用 于 转移 和 返回 
转移 函数 ) ,641 
for sparse conditional constant propagation (用 十 稀有 
条 件 常数 传播 ) , 372 
symbolic languages, run-time support (符号 语言 ， 运 行 
时 支持 ) , 131-133 
symbolic registers (符号 寄存 器 ) . See also webs (也 参 
见 网 ) 
ICAN representation (ICAN 表 示 ) ,82 
spilling (iH) , 488,506-511 
storage binding (存储 绑 定 ) , 55-56 
syntactic analysis (语法 分 析 ) . See also parsing (也 参 
见 分 析 ) 
combining with lexical analysis ( 与 词法 分 析 结 合 ) ,3 
described (描述 ) .2 
in Fortran (Fortran 中 ) , 3 
syntactic blocks, eliminating in Graham-Glanville code- 
generator generator (KMR, fEGraham- 
Glanville 代 码 生成 器 的 产生 器 中 的 删除 ) ，154- 
158 
syntax (语法 ) 
abstract syntax tree (抽象 语法 树 ) , 70-71 
XBNF syntax of changes to MIR to make HIR (为 变化 
到 HIR 而 对 MIR 的 XBNF 语 法 的 改变 ) , 79 
XBNF syntax of changes to MIR to make LIR (为 变化 
到 LIR 而 对 MIR 的 XBNF 语 法 的 改变 ) , 80 
XBNF syntax of MIR instructions (MIR 指 令 的 XBNF 


语法 ) , 74 
XBNF syntax of MIR programs and program units 
(MIR 程 序 和 程序 单位 的 XBNF 语 法 ) , 74 
syntax (ICAN) (语法 (CAN)) 
conventions (约定 ) , 21 
declarations 《说 明 ) , 26-27 
expressions (表示 ) , 27 
generic simple constants (一 般 简 单 常 数 ) , 28 
statements (语句 ) , 37 
type definitions (类 型 定义 ) , 25-26 
whole programs (完整 的 程序 ) , 25 
syntax-directed code generators (语法 制导 的 代码 生成 
器 ) . See Graham-Glanville code-generator 
generator (参见 Graham-Glanville 代 码 生 成 器 的 
产生 器 ) 


T 


tail call, defined ( 尾 调用 ， 定 义 ) , 461 
tail merging ( 尾 融合 ) 
described (描述 ) , 580 
order of optimizations ( 优化 的 顺序 ) , 604 
overview (概述 ) , 590-591 
tail-call optimization ( 尾 调用 优化 ) , 461-465 
addressing modes and 〈 寻 址 方式 ) , 465 
effect of (效果 ) , 461-463 
identifying tail calls (识别 尾 调用 ) , 463 
implementation 《实现 ) , 463-465 
order of optimizations (优化 的 顺序 ) , 477 
overview (BLK) . 476 l 
stack frames and (khi) , 462-463 
tail-recursion elimination ( 尾 递 归 删 除 ) , 461-463 
effect of (效果 ) , 461 
implementation (实现 ) , 463 
importance of (重要 性 ) , 320-321 
order of optimizations ( 优化 的 顺序 ) , 477 
overview (概述 ) , 476 
tail-recursive call, defined ( 尾 递 归 调 用 ， 定 义 ) , 461 
target-machine code, examples in this book (目标 机 代码 ， 
本 书 的 例子 ) , 16 
Tarjan, Robert E., 185, 631,738 
temporaries, described (临时 变量 ， 描述 ) , 111 
Tenenbaum, Aaron, 287 
terminals, in XBNF notation (终结 符 ，XBNF 表 示 中 ) , 
19 
thunk ( 形 实 转 换 程序 ), 118 
tiling (588) . See loop tiling (参见 循环 铺 砌 ) 
Tjiang, Steven S. K., 160, 259, 260, 265 
TLB. See translation-lookaside buffer (TLB) (参见 后 备 
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转换 缓冲 区 (TLB)) 

TOBEY, back end of POWER and PowerPC compilers 
(TOBEY，POWER 和 PowerPC 编 译 器 后 端 ) ， 
719-723 

tokens, in ICAN (单词 ，ICAN 中 ) , 22 

top, of lattices ( 顶 ， 格 的 ) , 223. See also lattices (4,2 
见 格 ) 

Torczon, Linda, 469, 495, 637, 664, 762 

Towle, Robert A., 289 

trace, defined (踪迹 ， 定 义 ) , 569 

trace scheduling (踪迹 调度 ) , 569-570 

compensation code (补偿 代码 ) , 569 

described (描述 ) , 532, 569 

example ( 例 ) , 569-570 

order of optimizations (优化 的 顺序 ) , 532, 574 

performance and (性 能 ) , 570 
translation-lookaside buffer (TLB) ( 

(TLB)) 

described {描述 ) , 670 

misses and stride values (缺失 与 步 长 值 ) , 670 

tree edges (#32) , 178 

trec-pattern-matching code generation ( B f& i E Ne (Ca 
生成 ) . See dynamic programming (参见 动态 规 
划 ) 

tree transformations, for simplification of addressing 
expressions 〈 树 转换 ， 用 于 地 址 表达 式 简 化 ) ， 
337-341 

trees (Bj) 

balanced binary trees (平衡 二 又 树 ) , 48, 761, 763 

intermediate code form (中 间 代 码 形式 ) , 97-100 

Polish prefix form (前 缀 波兰 形式 ) , 101 

quadruples vs.〈 四 元 式 ) , 98 

representation (表示 ) , 763-764 

translation from quadruples (从 四 元 式 转换 ) , 98-99 

translation to quadruples (转换 到 四 元 式 ) , 99-100 
trends in compiler design (编译 器 设计 的 趋势 ) , 744 
triples (三 元 式 ) 

intermediate code form (中 间 代 码 形 式 ) , 96-97 

quadruples vs. (四 元 式 ) , 96 

translation to quadruples (转换 到 四 元 式 ) , 97 

true dependence ( 真 依赖 ) . See flow dependence (参见 
流 依赖 ) 

tuple types, in ICAN (元 组 类 型 ，ICAN 中 ) 

binary operators (二 元 运算 符 ) , 33 

constant delimiters(<...>) (常数 分 界 符 (<...>)) ,27 

constants (常数 ) , 33 

element selection operator (@) (元 素 选 择 运 算 符 
(Q)) ,24, 27, 33 

type constructor ( x ) (类 型 构造 符 ) , 23, 26, 28, 33 


后 备 转换 缓冲 区 


tuples, in ICAN (元 组 ，ICAN 中 ) 
HIR Pd representation as (HIR 指 令 ， 表 示 
为 ) ， 
LIR instructions，representation as (LIR 指 令 ， 表示 
A) , 91-92 
MIR instructions, representation as (MIR 指 令 ， 表 示 
为 ) ,82-84 
twig, 160-165 
two-address instructions in register allocation by graph 
coloring (图 着 色 寄 存 器 分 配 中 的 两 地 址 指令 ) ， 
499, 529 
type definitions (类 型 定义 ) (ICAN) 
arrays (数组 ) , 30 
compiler-specific types (编译 专用 的 类 型 ) 
constructed types (构造 的 类 型 ) , 28 
described (描述 ) , 23,28 
enumerated types ( 枚 举 类 型 ) , 29-30 
floating-point numbers ( 浮 点 数 ) , 81 
functions (4%) , 34-35 
generic simple types (一 般 简 单 类 型 ) , 23, 28-29 
integers (整数 ) , 81 
nil value (nil 值 ) , 24,35 
operator (=) (运算 符 (=)) , 25, 26, 35 
records (记录 ) , 33-34 
sequences (序列 ) , 32-33 
sets (集合 ) ,31-32 
size operator ( 集合 运算 符 ) , 36 
syntax (iik) , 25-26 
tuples (元 组 ) , 33 
unions (联合 ) , 34 
type determination, data-flow analysis for (类 型 判定 ， 用 
于 数据 流 分 析 ) ,262-263 


U 


, 24, 35 


UCODE, design issues using (UCODE， 设 计 问 题 中 用 到 
的 ) ,67-68 
ud-chain (ud 链 ) ,251 
determining dead code (确定 死 代码 ) , 593 
Uliman, Jeffrey D., 227, 351 
unary operators (一 元 运算 符 ) 
algebraic simplifications (代数 化 简 ) , 333 
MIR, 75 
unary operators (ICAN) (一 元 运算 符 (ICAN)) 
negation ( 取 负 ) ,28 
set types (集合 类 型 ) ,24, 31 
unconstrained greedy schedule (720 RAY RAIA) ， 
555-556 


Unicode, run-time support (统一 码 ， 运 行 时 支持 ) , 106 
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UU 


unification (统一 ) . See code hoisting ( 见 代 码 提升 ) 
unified or combined cache ( 一致 的 或 组 合 的 高 速 缓存 ) ， 
670 
uniform register machine (一 致 的 寄存 器 机 器 ) , 163 
unify transformation (统一 转换 ) , 571-572 
unimodular loop transformations ( 么 模 循环 转换 ) , 690- 
693 
loop interchange (循环 交换 ) , 691 
loop permutation (循环 置换 ) , 691 
loop reversal (循环 逆转 ) , 692 
loop skewing (循环 倾斜 ) , 692-693 
overview (#38) , 690-691 
unimodular matrixes (A E&5p[E) , 690-693 
unions, in interprocedural side-effect analysis (RA, X 
程 间 副作用 分 析 中 ) , 637 
union types (C), aliases and (联合 类 型 (C)， 别 名 ) ， 
300 
union types, in ICAN (联合 类 型 ， ICAN 中 ) 
binary operators (一 元 运算 符 ) , 34 
overview (概述 ) , 34 
type constructor (U) (类 型 构造 符 ) , 23, 26, 28, 34 
universal quantifier ( V), in ICAN (全 体 量词 ( v). 
ICAN!H) , 27, 28 
unnecessary bounds-checking elimination (不 必要 边界 检 
查 删除 ) . 454-457 
implementation (实现 ) , 455-457 
importance of ( 重要 性 ) , 454-455 
languages requiring (语言 要 求 ) , 454 
order of optimizations (优化 的 顺序 ) , 458 
overview (概述 ) , 458-459 
unpacked records ( 非 压 缩 的 记录 ) , 108 
unreachable code, defined (不 可 到 达 代码 ， 定 义 ) , 580 
unreachable-code elimination (不 可 到 达 代码 删除 ) ， 
580-582 
algorithm (算法 ) , 580-581 
dead-code elimination vs. ( 死 代 码 删除 ) , 580 
described (描述 ) , 579, 580 
ICAN code (ICAN 人 代码) , 581 
MIR procedure example ( MIR 过 程 的 例子 ) , 581-582 
repetitions of ( 重复) , 579 
unroll-and-compact software pipelining (展开 — Hz SK ek ift 
Jk) , 555-558 
algorithm to find repeating pattern ( 找 出 重复 模式 的 算 
法 ) ,557-558 
overview (概述 ) , 555-557 
unconstrained greedy schedule (无 约束 的 贪 禁 调度 ) ， 
555-556 
unrolling. See loop unrolling ( 循环 展开 ) 
unrolling factor (展开 因子 ) , 559 


unspeculation ( 反 前 网 调度 ) . See speculative scheduling 
( 见 前 瞻 调 度 ) 
unswitching (无 开关 化 ) ,580, 588-589 
up-level addressing ( 上层 寻 址 ) , 115-116 
upwards-exposed uses (向 上 暴露 使 用 ) 
analysis (分 析 ) , 229-230 
in instruction scheduling (指令 调度 ) , 542 
user environment, described (描述 ) ,3 


V 


value graphs of procedures (过 程 的 值 图 ) , 349-351 
value numbering ( 值 编号 ) , 343-355 
applied to basic blocks (作用 于 基本 块 ) ,344-348 
applied to extended basic blocks {作用 于 扩展 基本 
块 ) , 344 
described (描述 ) , 343 
global (全 局 的 ) , 348-355 
optimizations with similar effects (具有 类 似 效果 的 优 
化 ) ,343 
order of optimizations (优化 的 顺序 ) , 372 
overview (概述) , 371,372 
very aggression version in IBM POWER and PowerPC 
compilers (POWER 和 PowerPC 纺 译 器 中 非常 激 
进 的 版 本 ) , 722 
variable declarations (ICAN) (变量 说 明 (ICAN) ) 
described (描述 ) ,81 
overview 《概述 ) , 23 
syntax (iiA) , 26-27 
variable expansion (变量 扩张 ) , 562-564 
accumulator variables ( 累加 器 变量 ) , 562-564 
algorithms (算法 ) . 563 
described (描述 ) , 532, 573 
induction variables (归纳 变量 ) , 562-563 
order of optimizations (优化 的 顺序 ) , 574-575 
search variables (搜索 变量 ) , 562-563 
variables (变量 ) 
”addressing method in symbol tables (符号 表 中 的 寻 址 
方法 ) , 54-55 
congruence of (#4) , 348-351 
dead (死去 的 ) , 445,592-592 
induction variables (归纳 变量 ) , 425-426 
induction-variable optimizations ( 归纳 变量 优化 ) ， 
425-453 
lifetimes of variables (变量 的 生命 期 ) , 44 
live and dead (活跃 的 与 死去 的 ) ,443,445 
live variables analysis (活跃 变量 分 析 ) ,229, 443-446 
local variables in stack frame ( 栈 帧 内 的 局 部 变量 ) ， 
56-58 
procedure-valued, interprocedural control-flow analysis 
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with (过 程 值 的 ， 过 程 问 数据 流 分 析 ) , 612-618 
procedure-valued variables (过 程 值 变量 ) , 126 
register use by (寄存 器 使 用 ) , 111 
in shared objects (共享 对 象 ) , 128 
storage-binding categories (存储 绑 定 分 类 ) , 54 
up-level addressing (上 层 录 址 ) , 115-116 
visibility of symbol-table variables ( 符号 表 变量 的 可 


见 性 ) , 43-44 
VAX compiler, ASCII support (VAX 编 详 器 ，ASCII 支 
持 ) , 106 


very busy expressions (非常 忙 表达 式 ) ,417 

Vick, Christopher, 443 

VLIW (very long instruction word systems) (VLIW ( 超 
长 指令 字 系 统 )) ,548,562, 566, 570, 574, 575, 
576 

visibility, of variables (af Wk, a5 ERU) , 43-44 

volatile storage class ( 易 变 存储 类 ) , 45 


Ww 


Wall, David W., 658,659-662, 664 
"wand waving" , in POWER and PowerPC compilers 
(“wand waving”, POWERZIlPowerPCZgait 4 
中 ) ,722 
Warren, S. K., 806 
WARTS, 770 
weakly separable array references ( 弱 可 分 的 数组 引用 ) . 
282, 283 
webs (网 ) . See also symbolic registers 《也 参见 符号 寄 
存 器 ) 
data-flow analysis (数据 流 分 析 ) , 251-252 
defined (定义 ) , 486 
example ( 例 ) ,489 
interferences among (之 间 的 冲突 ) , 490 
priority-based graph coloring (基于 优先 级 的 图 着 色 ) ， 
524-525 
register allocation by graph coloring (图 着 色 和 寄存 器 分 
配 ) , 486, 489-494 
spill costs computation (溢出 代价 计算 ) 487- 
488,501-503 
Wegman, Mark N., 348, 355,363 
Weihl, William E., 612, 637 
Weicker, Reinhold P., 121 


Weinstock, Charles B., 820 
well-behaved loops in C (〈C 的 规则 循环 ) , 425 
well-structured flowgraph (结构 良好 的 流 图 ) , 196 
while statements (while 诸 句 ) 
flow functions for structural analysis (用 十 结构 分 析 的 
PEER BL) ,238-239 
ICAN form (ICANJÉ X) , 39 
loop inversion (循环 倒置 ) , 587-588 
whitespace, in ICAN (?zf47T, ICAN![:) , 21 
Whitfield, Debbie, 700 
window scheduling (窗口 调度 ) , 551-555 
algorithm (算法 ) , 552-553 
combining with loop unrolling (与 循环 展开 结合 ) . 
553,555 
overview (概述 ) , 551-552 
Wolf, Michael E., 289, 690, 698, 738 
Wolfe, Michael R., 694, 700 
word, usage in this book ( 字 ， 本 书 中 的 用 法 ) , 16-17 
worklist algorithm for iterative data-flow analysis (迭代 
数据 流 分 析 的 工作 表 算 法 ) , 232-233 
write-live dependence ( 写 活 跃 依 赖 ) .571 
Wulf, William, 730 


X 


XBNF. See Extended Backus-Naur Form (XBNF) (扩展 
的 巴 科斯 -诺尔 范式 ) 

XIL code (XIL 人 代码) ,719-721 

XL compilers (XIL 编 译 器 ) . See POWER and PowerPC 
compilers (参见 POWER 和 PowerPC 编 译 器 ) 


Y 
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